Ahora si…Ciencia de Datos en Medicina

Luis Eduardo Pino, Miembro Fundador Tanque de Pensamiento AIpocrates.
Andrés Eduardo Rico, Miembro Fundador Tanque de Pensamiento AIpocrates.

Introducción
En AIpocrates hace poco más de un año iniciamos esta travesia, la de optimizar la medicina desde el campo de la inteligencia artificial (IA), es decir, que los modelos de la IA no solo se originaran a partir de necesidades o preguntas sectoriales derivadas de equipos interdisciplnarios sino que a la vez los modelos de solución pudieran ser ágil y efectivamente implementados para beneficio de todos los que trabajamos en salud mediante inteligencia colaborativa.

El propósito ha sido mejorar la transición de la medicina en tres campos especiales: la ciencia de datos, las tecnologías exponenciales en salud y la educación.

Con respecto a la ciencia de datos, hemos explorado en diversas columnas:

  1. El análisis de datos iniciando con conceptos básicos de Big data, fricción de datos y empezamos con algunas técnicas para la gestión de las bases a través de análisis exploratorios y selección de características entre otros.
  2. Visualización de los datos.
  3. Algunos modelos de Machine Learning (ML) usados para la analítica.

La ciencia de datos aprende sobre el mundo real en términos precisos y con la pretensión de retirar el ruido de los mismos para generar información y posteriormente conocimiento.

En esta apuesta por entender el funcionamiento del mundo la ciencia de datos debe asistirse de los modelos matemáticos los cuales no son otra cosa que una simulación de la realidad. Los modelos toman a los datos como su entrada, encuentran patrones en los mismos y luego los resumen en su arquitectura. El machine learning (ML) por su parte permite la automatización y puesta en escena de uno o varios modelos del mundo de la ciencia de datos y a diferencia de la estadística clásica no parte de uno predeterminado. Es importante entonces recordar conceptos básicos derivados del álgebra lineal, el cálculo diferencial y por supuesto la estadística para entender mejor la complejidad de estos modelos y algoritmos.

Ya hemos escrito previamente sobre la forma en que puede entrenarse el ML bien sea a partir de definiciones binarias o no, por lo tanto invitamos al lector a referenciar nuestras columnas previas relacionadas con el tema.

Lo importante sigue siendo la pregunta, la definición del problema y no es la respuesta.

La utilidad de los datos no está en los datos en sí mismos, sino en la información y conocimiento que se construye a partir de ellos, de la veracidad, validez y la opción de ser generalizables.

Aunque estas columnas no buscan ser cátedras, si buscan brindar una aproximación que facilite al personal en salud entender y eventualmente utilizar en forma efectiva, eficiente y eficaz los conceptos para alimentar la curiosidad y si es de su gusto profundizar en este tema que llegó para quedarse y seguir creciendo en el sector salud.

Para poder describir y explicar los eventos sujetos de estudio, se observan y registran los datos, datos que se relacionan con variables (características) a través del método científico, donde a través de técnicas estadísticas podemos confirmar o descartar la hipótesis nula planteada.

Ahora con los zettabytes de información disponibles y en crecimiento, las técnicas estadísticas tradicionales se ven sobrepasadas, dando paso a los modelos del mundo ML/DL para abordar los problemas de predicción y clasificación, necesidades usualmente hipercomplejas que hemos gestionado en forma clásica, a veces lineal sin que necesariamente ello aplique.

Pues bien, a partir de esta columna empezaremos a describir los siguientes modelos en narrativa sencilla, enfocada en el sector salud, desde la medicina y para la medicina:

Aprendizaje Supervisado
Modelos de regresión
Regresión lineal simple y múltiple
Modelos de clasificación:
Regresión logística
Arboles de decisión +/- GridSearch
Modelos de ensamble
Bagging y Random Forest
Boosting
Stacking y multi-stacking

Aprendizaje No Supervisado
Clusterización por K-means
Clusterización jerárquica + Análisis de componente principal PCA
Máquinas de soporte vectorial SVM

Aprendizaje Profundo
Redes neuronales avanzadas
Redes neuronales convolucionales
Procesadores de lenguaje natural (NLP): Análisis de sentimientos

Transformers
Bienvenidos entonces a nuestra serie de columnas. La siguiente semana iniciaremos con el primer modelo que todo científico de datos debe(ría) conocer, es decir la regresión lineal (RL).

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

A %d blogueros les gusta esto: