Del dato a la información en salud

Luis Eduardo Pino Villarreal, Director Ejecutivo AIpocrates
Andrés Eduardo Rico Carrillo, Miembro Comité Ejecutivo AIpocrates

«Los datos no son información, la información no es conocimiento.» Clifford Stoll

Mucho se ha escrito en AIpocrates sobre el dato, desde su origen, evolución y fricciones hasta los componentes básicos de su análisis. En esta columna queremos iniciar con una serie de contenidos concatenados que nos llevarán del dato a la información para una mejor gestión de la salud. La innovación no implica tecnología, pero cualquier innovación bien sea en procesos, productos o servicios requiere como principio esencial un marco referencial, es decir información crítica que permita descubrir las oportunidades de transformación y las dinámicas de los sistemas complejos, es esa la función esencial de los datos en nuestro sector.

Hay datos en todos lados, algunos más evidentes que otros, pero en nuestro mundo desarrollado e hiperconectado el flujo de los mismos es arrollador y caótico. En nuestro sector salud además los datos fluyen en forma independiente, desconectada con un profundo imbalance y pobre armonía, es este quizás el mayor problema para el aprovechamiento de los mismos. Los estadísticos y científicos de datos en general gastan mucho más tiempo en el análisis del problema y en el preprocesamiento de datos que en su componente principal, el que brinda información, es decir en el análisis:

Como puede deducirse de esta gráfica, solo un 10% del tiempo se invierte en la generación de los modelos analíticos necesarios para obtener información que apoye a la toma de decisiones.

Pero un tema esencial antes entrar a los datos es la definición adecuada del problema. En salud tenemos millones de problemas, el más importante es el cómo abarcar necesidades infinitas con recursos finitos, pero este es un problema central a la humanidad y los desarrollos e innovación que se enfoquen en mejores rendimientos para los procesos y mejores servicios impactaran sin duda en un mejor equilibrio (si es que este es posible). En general, quienes somos personal de salud tenemos una tendencia al reduccionismo antes de abordar un problema y nos centramos en forma automática a pensar primero en la herramienta (usualmente tecnológica) y no en el dilema a resolver. esto ha sido expuesto previamente en nuestras columnas especialmente en lo relacionado con las Apps y el cómo elegir modelos de analítica acorde con los problemas sectoriales.

Ahora si, entremos a los datos. Ellos nos ayudan a entender el mundo. Los modelos son iteraciones de la realidad, son un intento de explicar como funciona lo invisible y predecir cómo se comportaría bajo diversas circunstancias. Los datos contienen dos elementos: información y ruido. El problema central de la estadística y la ciencia de datos es el balance, intentando extraer el mayor ruido posible de la información para llegar a lo que podría llamarse verdad (algunos en medicina le llamarían evidencia). Si tomamos decisiones con información y ruido quedaremos cegados y peor aún sesgados como en la siguiente foto:

Tomado de Twitter, autor anónimo

Para aprender del mundo con datos debemos obviamente hacer observaciones y analizar el contexto (como en la foto previa). Una vez adquiridos estos datos debemos pasar a la extracción del ruido, para ello se hacen diversos procedimientos que se alojan en un concepto general llamado preprocesamiento. Después de este proceso usualmente los datos entran en un modelo simulado, de origen matemático cuya elección depende esencialmente de la definición del problema (por eso es este el tema esencial).

El modelo, cualquiera que este sea toma los datos como entrada, encuentra patrones dependiendo del problema a resolver (clasifica, predice, integra etc) y los resume en unas salidas con medidas de desempeño (precisión, sensibilidad, especificidad, R2, ROC etc) y tableros de visualización. Una vez consolidado esto debe(ría) pasarse a un modelo de toma de decisiones basadas en dichas salidas.

Aquí entonces viene una idea fuerza: La diferencia esencial entre la estadística clásica y el machine learning (ML) es que la estadística parte de un modelo predefinido para la pregunta mientras ML utiliza y automatiza diferentes modelos para resolver la pregunta eligiendo al final el de mejor desempeño. Algunos hablan del abordaje de validación de hipótesis Vs el análisis binomial para referirse a uno y otro en cuanto al análisis de la evidencia científica, sobre este tema escribiremos una columna especial.

Enfatizando en que el tema esencial para la conversión de datos en información para la gestión de decisiones en salud es la definición del problema y la extracción y captura de datos nos centraremos en esta columna en el preprocesamiento de los mismos.

El preprocesamiento es un proceso que pretende dejar los datos en el mejor nivel posible de limpieza y armonización para el posterior análisis. Este proceso se ejecuta mediante diversos procedimientos que incluyen:

  1. Evaluación del formato de los datos: Dimensiones de las variables y tipos de variables (categóricas, continuas, binarias etc),
  2. Análisis de la consistencia de datos: Detección de outliers y missing values, análisis de distribuciones y tendencias (sesgo positivo o negativo) y
  3. Extracción de características y reducción de la dimensionalidad mediante transformaciones de variables para simplificar el set de datos.

Previo al preprocesamiento es ideal realizar un análisis exploratorio de datos (EDA) univariado y bivariado con el objetivo de tener una panorámica general de la descriptiva y correlaciones para con ello determinar cuál será el abordaje del posterior preprocesamiento. Los paquetes analíticos más utilizados (C++, R y Python) tienen la capacidad de realizar tanto el EDA como el preprocesamiento mediante diversas técnicas.

En https://www.kaggle.com/ pueden encontrarse diferentes ejemplos de EDA y preprocesamiento de datos con diversos set de datos para mejor comprensión del tema.

En nuestras próximas columnas escribiremos sobre EDA y preprocesamiento con mayor detalle, esto con el fin de hacer una inmersión más segura en los modelos de analítica basados en ML con enfoque en los problemas de salud (se recomienda leer: Biomedicina y datos complejos, IA a la carte en salud, gestión de la calidad de los datos en salud, fricción de los datos en salud y persiguiendo un Ferrari en bicicleta)

Nos leeremos pronto aquí en http://www.aipocrates.org

2 comentarios sobre “Del dato a la información en salud

  1. La ciencia de los datos como la concebimos hoy, dista de lo que podemos lograr aplicando la IA.
    Esto nos permitira soltar nuestra creatividad para hacer uso adecuado de las TIC.

    Me gusta

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

A %d blogueros les gusta esto: