Biomedicina y datos complejos

Ray G. Butler, Data Science Director, Butler Scientifics.

**  Artículo será también publicado en la revista pharmatech

Resumen
La mayoría de estudios de investigación clínica y biomédica no tienen un problema de big
data, sino un problema de complex data. En este artículo conocerá las claves para
comprender este novedoso concepto y herramientas que ayudan a automatizar la exploración
de los datos complejos en proyectos de investigación biomédica.
Palabras clave: datos complejos, big data, exploración de datos, autodiscovery
Most clinical and biomedical research studies do not have a big data problem, but a complex
data problem. In this article, you will learn the keys to understanding this novel concept and
also tools that help automate the exploration of complex data in biomedical research projects.
Keywords: complex data, big data, data exploration, autodiscovery.

Más de 20 años de big data

Parece que fue ayer pero ciertamente llevamos más de veinte años utilizando el término big data para referirnos, de forma generalizada, a un tipo de proyecto caracterizado por involucrar un gran volumen de información, generada a una velocidad de vértigo desde multitud de orígenes, con una calidad que debemos controlar bien y de la que esperamos sacar el máximo valor.

En el ámbito de la investigación clínica y biomédica, la implementación de estudios big data se focaliza casi en exclusiva en las –ómicas (genómica, proteómica, metabolómica, transcriptómica, etc.).

La experiencia en el sector nos hace apuntar a una causa como la principal para que esto haya sido así y es que, ni más ni menos, la inmensa mayoría de estudios de investigación clínica y biomédica no tienen un problema de tipo big data, sino un problema de tipo complex data.

Me explico.

¿Datos complejos?

Como se ha descrito anteriormente, los estudios big data presentan un número de retos entrelazados que impactan especialmente en el elevado coste de la infraestructura tecnológica y de los recursos humanos involucrados, algo que es difícilmente justificable en otras condiciones.

En términos generales, los estudios complex data podrían considerarse como un caso especial de los anteriores y se caracterizan por dos elementos fundamentales:

1. Foco en una muestra relevante: el número de muestras o individuos participantes en el estudio (la famosa n estadística) es manejable, en el mejor de los casos en torno a las decenas de miles pero mayoritariamente en el rango de varios cientos. Estos individuos, además, son seleccionados habitualmente con unos criterios pre-definidos.  Esto permite, a su vez, que la calidad de los datos sea sensiblemente superior a otros tipos de estudio.

2. Integración de datos: cada uno de esos individuos del estudio está representado por una gran variedad de grupos de información (demografía, diagnóstico, pronóstico, biomarcadores, hábitos de vida, etc.) que proceden de diferentes fuentes y que deben ser convenientemente integrados para poder tener una visión completa.

Podríamos resumir, entonces, que los estudios complex data tienen la propiedad de que el número de variables involucradas es muy elevado (multivariabilidad), aunque el tamaño de la muestra no lo sea tanto.

Estos elementos combinados dan lugar a un contexto de datos muy peculiar que presenta una serie de retos específicos, diferentes a los de estudios big data generales.

Por un lado, la formulación de los objetivos del estudio debe incorporar una visión más abierta, facilitando la búsqueda de resultados dentro de un espacio de posibilidades aún por explorar pero con fundamento lógico (clínico), y no focalizado a un contraste de hipótesis específico.

Por el otro, este espacio de posibilidades es muy extenso, motivado por la mencionada multivariabilidad y por la existencia de gran cantidad de subgrupos de individuos (o estratos), con propiedades particulares, que pueden y deben ser estudiados tanto de forma individual como global.

A todo este contexto de trabajo es a lo que denomino complex data.

La exploración de datos.

Así pues, un punto de partida tan sumamente complejo se hace imposible de abordar con herramientas clásicas que requieran concretar en exceso el objetivo (ej. análisis dirigido por hipótesis) y, ni mucho menos, cubrir el espacio combinatorio de posibilidades de forma manual (ej. herramientas de visualización de asociaciones entre variables).

Sin embargo, cabe remarcar que el tamaño muestral más reducido de este tipo de estudios permite que la tecnología y recursos que se deben involucrar tenga un coste varios órdenes de magnitud inferior al de las infraestructuras big data.

Para hacer frente a este nuevo escenario existen otras estrategias mucho más apropiadas entre las que destacaría, sin duda alguna, la exploración de datos (EDA, acrónimo de Exploratory Data Analysis).

EDA es un término acuñado originalmente por John Wilder Tukey, estadístico estadounidense, quien presentó el concepto y la metodología en su famoso libro con el mismo título “Exploratory Data Analysis” en 1977 (1).

En contraste a la estrategia confirmatoria (o CDA), la exploración de datos se aplica en aquella fase del estudio cuyo objetivo es el de conectar ideas para identificar posibles “por qué” de las asociaciones causa/efecto o, dicho de una forma más llana, cuando el investigador quiere conocer mejor qué es lo que tiene entre manos.

La exploración de datos es pues una manera de hacer, una actitud que se aplica sobre el proceso de análisis de datos y que, en última instancia, busca que el investigador genere nuevas hipótesis de mayor impacto científico.

La exploración de datos se muestra muy útil en diferentes tareas como, por ejemplo:

· La simplificación del problema original

· La identificación de líneas de trabajo de máximo potencial

· La correcta elección de los métodos estadísticos para el análisis

· El refuerzo a posteriori de resultados obtenidos en estudios anteriores

Exploración y confirmación: una pareja perfecta.

Llegados a este punto, es importante remarcar que la estrategia exploratoria no es, ni de lejos, una sustituta del estudio dirigido por hipótesis (o estrategia confirmatoria). De hecho, tal y como el propio Tukey sugiere, ubicados en secuencia en el proceso científico son un complemento ideal:

La fase exploratoria nos permite proponer candidatos óptimos minimizando el error tipo II (falsos negativos), mientras que la fase confirmatoria nos permitirá testear el candidato minimizando el error tipo I (falsos positivos).

Al mismo tiempo, el conocimiento obtenido de la fase confirmatoria nos permite realimentar el proceso para futuras exploraciones en profundidad.

Exploración automatizada de datos complejos.

Si bien EDA se presenta como una de las estrategias a seguir cuando nos enfrentamos a un problema de complejidad de datos, por sí misma no da respuesta a los retos mencionados anteriormente: ¿qué tipo de objetivos hemos de formular en un estudio exploratorio eficiente? ¿cómo abordamos el inmenso espacio de combinaciones posibles que hemos de afrontar si queremos explorar exhaustivamente?

La respuesta a estas preguntas surge de una evolución natural de EDA: se trata de la exploración automatizada de datos (automated EDA), una técnica que combina conceptos base de la automatización de la ciencia de datos (automated data science) con la experiencia de cientos de proyectos reales que han permitido identificar las características funcionales clave y, por extensión, automatizar en gran medida todo el proceso.

¿Automatizar la exploración de datos?

Ciertamente, la exploración de datos es un proceso intelectualmente muy intensivo que requiere una atención permanente y un conocimiento del ámbito del estudio muy elevado.

Plantearse pues la automatización (siquiera parcial) de ese proceso implica que gran parte de ese conocimiento haya sido digitalizado o, si me lo permiten, “algoritmizado”.

Por tanto, cualquier herramienta que pretenda automatizar el proceso de exploración debería incorporar los elementos fundamentales del “negocio” en el cual se va a desenvolver. Así, por ejemplo, en el ámbito de la investigación clínica y biomédica se hacen imprescindibles características como:

  • La integración efectiva de datos de diferente naturaleza obtenidos de los individuos del estudio.
  • El ajuste del espacio de combinaciones que se desea explorar en función de los objetivos científicos.
  • La definición de una tipología de resultados clave y suficientemente genérica pero a la vez práctica. En el caso de estos estudios clínicos / biomédicos, la mayor parte de los resultados se expresan en forma de asociaciones estadísticas entre las variables de interés (tratamiento-respuesta, grupo-característica, etc.) o en forma de patrones de comportamiento (ej. secuencias de eventos relevantes).
  • La elección adecuada e inteligente de los métodos estadísticos para cada caso, siempre dentro del ámbito clínico (ej. análisis de normalidad y varianzas, correlaciones numéricas, curvas de supervivencia de Kaplan-Meier, modelos avanzados de clasificación de pacientes, entre otros muchos).
  • La estratificación exhaustiva de nuestra muestra, para explorar de forma individualizada cada uno de los posibles subgrupos de interés en nuestro estudio y, al mismo tiempo, comparar estos análisis individuales.
  • La priorización de los resultados obtenidos que combinen de forma efectiva relevancia clínica, tamaños de efecto y significación estadística ajustada, y permita focalizar los recursos en los resultados más valiosos.
  • La trazabilidad de los resultados obtenidos, permitiendo obtener una explicación transparente (caja blanca) y la replicabilidad de cada uno de ellos.

Empecemos por el principio: la pregunta exploratoria.

Como cualquier otro estudio estadístico, un estudio exploratorio debe ser diseñado y ejecutado con uno o varios objetivos definidos a-priori.

Las preguntas exploratorias son, ni más ni menos, equivalentes a las hipótesis formales del estudio confirmatorio, despojadas de ese nivel de precisión y concreción para aumentar el espacio combinatorio a analizar al tiempo que se centran en aspectos clínicamente fundamentados.

Un análisis de cientos de proyectos exploratorios nos permite identificar tres tipos generales de preguntas exploratorias que pueden plantearse:

  • Rol: una pregunta de este tipo busca conocer el impacto (o rol) que tiene un factor –o un conjunto reducido de ellos, en azul en el diagrama de la derecha- sobre el comportamiento de los pacientes (respuestas, en gris en el diagrama). Un ejemplo de este tipo de pregunta exploratoria podría ser “¿Cómo impactan las nuevas neuronas generadas en el hipocampo sobre los diferentes indicadores de rendimiento de aprendizaje y memoria?”.
  • Predicción: es el tipo de pregunta inversa a la del tipo rol. Lo que ahora buscamos es descubrir qué factores (en gris) son los que están principalmente involucrados en la respuesta del paciente (en azul), en qué subgrupos de ellos afectan más, y de qué manera podría estimarse una probabilidad de respuesta de cualquier otro paciente (modelo predictivo de clasificación). Un ejemplo de pregunta de este tipo sería “¿Qué factores influyen en la necesidad futura de trasplante renal de los pacientes de nuestro estudio en particular?”
  • Caracterización: en este caso, la pregunta formulada busca describir en profundidad un número conocido de grupos de pacientes (azul y verde en el diagrama de la derecha) más allá de las características ya conocidas. Un ejemplo de este tipo de pregunta exploratoria sería “¿Qué diferencias hay en términos de expresión genética entre los pacientes según el grado de severidad de la enfermedad?”

Como puede observarse, la respuesta efectiva a cualquiera de esos tipos de pregunta requiere un tipo de análisis estadístico similar al que hemos descrito anteriormente: integrativo, exhaustivo, asociativo, automatizado, inteligente, estratificado, priorizado, repetible y trazable.

El segundo ingrediente de la receta: los datos.

Obviamente, la exploración automatizada se basa en la disponibilidad de datos para su análisis. Sin embargo, dadas las especificidades de este proceso, los datos deben cumplir una serie de características mínimas entre las que destacaría las siguientes:

  • Relevancia: los datos recogidos deben contener toda la información involucrada en las preguntas exploratorias, considerando siempre el aspecto abierto de éstas y limitados en el extremo superior por el cuerpo de conocimiento previo en la materia. Por nuestra experiencia, la regla de oro para incorporar o no un factor en un estudio exploratorio sería “si existe base clínica que justifique la potencial aparición del factor en la respuesta a nuestra pregunta, éste debe ser incorporado”.
  • Complejidad: en relación a la regla anterior, el conjunto de datos debe integrar el mayor número de factores potencialmente relevantes.
  • Fiabilidad: los datos deben haber sido generados, capturados y almacenados a través de procesos que garanticen su calidad, siempre dentro del ámbito de la investigación en el que nos movamos. Seguir las recomendaciones de las asociaciones estadísticas (como la ASA) sería mi consejo en este sentido.
  • Automatización: los datos del estudio deben estar disponibles para su almacenamiento, transformación y tratamiento automatizado por herramientas software.

Estos datos pueden surgir de diferentes fuentes como, por ejemplo:

  • Bases de datos abiertas: suelen contener datos relevantes y fiables sobre múltiples temáticas. En muchos casos (aunque no siempre) son automatizables aunque requieran de tareas de pre-procesado manuales que involucran perfiles técnicos en el trabajo de integración. Muchas de ellas son incluso gratuitas.
  • Estudios previos: otra gran fuente de datos son los propios estudios pasados realizados por el equipo de investigación o por equipos asociados. Estos datos suelen tener la virtud de ser mucho más relevantes que las bases de datos abiertas ya que están muy relacionados con las mismas preguntas exploratorias.
  • Fase exploratoria del estudio: si no es posible acceder a ninguna de las fuentes anteriores, es importante considerar un rediseño del estudio para incorporar una etapa exploratoria preliminar que alimente el proceso con respuestas relevantes para la siguiente etapa (habitualmente confirmatoria).

Un caso real: melanoma uveal.

El Dr. Santiago Ramón y Cajal Agüeras, descendiente del homónimo y reconocido Premio Nobel, es el Jefe de Grupo de la unidad de Patología Molecular Traslacional en el Instituto de Investigación Hospital Vall d’Hebrón (VHIR) de Barcelona.

El objetivo fundamental de su grupo es el estudio anatomopatológico molecular del tumor relacionado con la identificación de nuevas dianas diagnósticas, pronósticas y terapéuticas.

En colaboración con la unidad de Biología Molecular del grupo, dirigida por el Dr. Javier Hernández Losa, se fijó el objetivo de analizar en qué medida la expresión inmunohistoquímica de los marcadores que forman parte de diferentes vías de señalización actúa como predictor independiente del riesgo de metástasis o de supervivencia global de los pacientes con melanoma uveal (2).

En términos epidemiológicos, el melanoma uveal es la neoplasia maligna primaria ocular más frecuente en el adulto, siendo excepcional en niños, con una incidencia de unos 7 casos por 1.000.000 de habitantes/año en Europa (3) y de 5.3 a 10.9 casos por 1.000.000 de habitantes/año en USA (4).

Dada la variedad de factores de estratificación posibles y la aproximación exploratoria exhaustiva tan clara de este estudio el equipo barajó la posibilidad de i) invertir una gran cantidad de tiempo (y dinero) en reuniones técnicas con el equipo de bioestadística para discutir cada uno de los pasos a dar en los diferentes ciclos de descubrimiento o ii) automatizar el proceso de exploración de datos con AutoDiscovery. Y así fue.

Automatizando el proceso: la pregunta exploratoria.

El objetivo general del estudio se descompuso en hasta 8 preguntas exploratorias entre las que destacaríamos, a modo representativo de los diferentes tipos de preguntas, las siguientes:

  1. ¿Qué marcadores inmunohistoquímicos están asociados con la supervivencia, el período libre de enfermedad y/o la presencia de metástasis? (pregunta de tipo rol)
  2. ¿Qué marcadores correlacionan con los niveles de expresión de 4E-BP1 y p4E-BP1? (pregunta de tipo predicción).
  3. ¿Qué factores de mal pronóstico están asociados al subgrupo con niveles altos de pS6 y p4E-BP1? (pregunta de tipo caracterización).

Como puede observarse, todas las preguntas exploratorias están formuladas en términos abiertos, con base clínica pero con un elevado espacio combinatorio a analizar.

Automatizando el proceso: los datos

La información recogida para este estudio estaba compuesta por 48 factores relacionados con la demografía, pronóstico, marcadores inmunohistoquímicos (en concreto 12) y seguimiento clínico de 101 pacientes.

Estos factores combinados dieron lugar a más de 246.000 combinaciones de análisis estadístico de diferente tipo (correlaciones, análisis de varianzas, contingencias y análisis de supervivencia global) que AutoDiscovery pudo analizar en aproximadamente 10 minutos de carga computacional.

Conclusiones del proceso de automatización Una de las relaciones más interesantes desde el punto de vista clínico que fueron descubiertas por AutoDiscovery fue que concretamente los pacientes en estadío T3cN0M0 y altos niveles de expresión de p4E-BP1 mostraban un nivel significativamente más alto de Ki67 que aquellos que tenían un nivel de expresión medio/bajo de p4E-BP1.

Esta asociación soporta la idea de que la vía de señalización mTOR tiene un rol relevante en el crecimiento tumoral.

Además del indudable valor clínico de este proceso, se demostró que el tiempo que AutoDiscovery necesitó para analizar este conjunto de datos, comparado con herramientas estadísticas clásicas, era 13 veces inferior, la mitad de costoso y con una cobertura exploratoria 190 veces superior.

Fig 1. Estudio comparativo de AutoDiscovery frente a la externalización del análisis de datos con herramientas bioestadísticas manuales (SPSS, GraphPad).

Datos complejos: soluciones eficientes.

En resumen, frente a otras alternativas como la estadística confirmatoria o la visualización de datos, la exploración automatizada de datos se presenta como una alternativa efectiva para afrontar el contexto de complejidad al que nos enfrentamos cuando abordamos un análisis de datos en el ámbito de la investigación biomédica y clínica.

Referencias

  • Tukey, J. W. (1977). Exploratory data analysis (Vol. 2, pp. 131-160).
  • Dinarès Fernández, Carme, autor.; Ramón y Cajal Agüeras, Santiago, supervisor acadèmic.; Hernández Losa, Javier, supervisor acadèmic. Estudio de la vía de señalización de 4E-BP1 : implicaciones pronósticas y terapéuticas en el melanoma uveal. ISBN 9788449071119.
  • Gianni Virgili, Gemma Gatta, Laura Ciccolallo, Ricardo Capocaccia, Annibale Biggeri, Emanuele Crocetti, Jean-Michel Lutz, Eugenio Paci, EUROCARE Working Group. Incidence of Uveal Melanoma in Europe. Ophtalmology 2007; 114; 2039-2315.
  • Arun D. Singh, Allan K Topham. Incidence of the Uveal Melanoma in the United States: 1973-1997. Ophtalmology 2003; 110; 956-961.

En el ámbito académico, Ray G. Butler es Licenciado en Informática por la Universidad de Las Palmas de Gran Canaria (España) y Profesor Asociado de Estadística en la Universitat Politècnica de Catalunya/Euncet (Barcelona, España). En sus más de 20 años de carrera profesional desarrolló su experiencia en el sector privado como ingeniero de software, gestor de proyectos y, finalmente, como director de I+D+i. Desde hace más de 10 años, se vuelca al 100% en apoyar la investigación biomédica en todo el mundo, ayudando a los equipos de investigación a descubrir más y mejor, con ayuda de herramientas software de análisis de datos inteligentes, automatizadas y de fácil uso.Hoy mantiene esa pasión canalizada a través de la startup Butler Scientifics, de la que es co-fundador, CEO y Director de Ciencia de Datos.

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

A %d blogueros les gusta esto: