Pre-procesamiento de información para modelos de inteligencia híbrida (humana/computacional)

La ciencia de los datos, la información para la optimización de modelos de Machine Learning

Médico Especialista en Medicina Interna. Profesor Adscrito de la Pontificia Universidad Javeriana Socio Fundador Tanque de Pensamiento AIpocrates

Quiero comenzar esta columna, con el siguiente párrafo:

We are drowning in information, while starving for wisdom. The world henceforth will be run by synthesizers, people able to put together the right information at the right time, think critically about it, and make important choices wisely”. Lo encontré en las lecturas sobre inteligencia artificial, su autor un biólogo reconocido por su trabajo en socio-biología y en la búsqueda de la unión del conocimiento y la información de diversas ciencias para crear un marco común  de entendimiento (3), el profesor emérito de Harvard Edward Osborne Wilson (E. O. Wilson).

Los sentidos de estas frases que se ajustan al tema de hoy:

  1. We are drowning in information, while starving for wisdom”
    1. Nos estamos ahogando en datos e información, mientras estamos hambrientos por “sabiduría”, aunque “wisdom” puede tener varias traducciones, entre ellas:
      1. “Conocimiento acumulado o iluminación”,  o
      1. “rasgo de actuar con conocimiento y experiencia”, o
      1. “cualidad de comprensión profunda y con sentido”.
  2. The world… will be run by… people able to put together the right information at the right time, think critically about it, and make important choices wisely”
    1. Persones que manejen/consoliden la información en el momento y lugar correcto, la analicen de manera crítica y tomen decisiones adecuadas.

Los datos y la información

En esta era de interconexión o de super conexión, la generación de datos no tiene precedentes y el campo de las ciencias de la salud no es la excepción (1, 2). Como se muestra en las gráficas a continuación, los procesos requeridos para preparar el dato, son amplios.

Gráfica 1: Generación del dato y herramientas de IA.

Gráfica 2: Generación de la data del individuo en su ciclo vital como parte de una comunidad.

La cantidad de data/información generada en función del tiempo, se ha incrementado de manera exponencial, gracias a que ahora son más los fenómenos medidos y  los dispositivos de medición son más accesibles y portátiles, dando paso al concepto de “Big Data”, caracterizado por las 3V (1,2):

  • Volúmenes altos.
  • Variedad de las fuentes.
  • Velocidad de generación y procesamiento aumentado.
Gráfica 3: Características de la “Big data” en salud.

Ante el gigantesco volumen de información se hace necesario el pre-procesamiento de los datos base  (“raw data”) para que estos sean útiles, analizables e interpretables.  Esta preparación del dato se realiza a través de métodos estadísticos avanzados, algoritmos y otras herramientas computacionales (2, 5, 6).

Gráfica 4: Machine Learning en el pre-procesamiento de los datos.

En la actualidad se debe diferenciar entre:

  • Los algoritmos tradicionales, los cuales tienen unas instrucciones explícitas dentro de su programación para la realización de sus funciones.
  • Los algoritmos de aprendizaje de máquina que basados en sus datos aprenden a realizar la operación que se desea sin la necesidad que los programadores incluyan las reglas en su código, es decir aprenden sin una programación explícita (4).

Rahmani AM., et al., clasifican las herramientas de aprendizaje de máquina (Machine Learning), según la aplicación en el campo de la salud:

  1. El método de pre procesamiento: limpieza de datos y reducción de datos.
  2. Métodos de aprendizaje: supervisado, no supervisado, semi supervisado y por reforzamiento.
  3. Métodos de evaluación: simulación e implementación.
  4. Aplicaciones: diagnóstico y tratamiento.

Esta categorización no es excluyente entre sí, como lo veremos más adelante.

Una vez la necesidad ha sido identificada y transformada en una pregunta, se seleccionan el tipo de datos requeridos y la fuente, para desarrollar la solución (1, 2, 4).

Al acúmulo de información se le conoce como bases de datos y al conjunto de bases de datos se les ha identificado como “data Lake” o silos.  El objetivo de estos repositorios de información es servir para entrenamiento, validación y prueba del performance de algoritmos con capacidad de aprendizaje (Machine Learning).

Pre-procesamiento

El objetivo es lograr que el repositorio de datos sea de alta calidad y que sirva para el aprendizaje, refinación y recalibración de otros modelos de aprendizaje de máquina o “Machine Learning”.

Rahmani AM., et al., proponen como partes del pre-procesamiento:

  • La identificación de ruido o “noisy data”
  • La identificación de valores perdidos.
  • Datos publicados
  • Datos contradictorios
  • Reducción de las dimensiones del repositorio de data o aumento si este es escasa.
Gráfica 5: Tipos de métodos de Machine Learning para el pre-procesamiento de datos

Tipos de métodos de Machine Learning para el pre-procesamiento de datos

Rahmani AM., et al., sugieren dos tipos principales de métodos de pre-procesamiento:

  1. Limpieza de datos.
  2. Manejo de datos perdidos:
    1. Remoción de datos con valores perdidos.
    1. Estimación de valores perdidos (no son exactos, reduce la precisión del modelo de aprendizaje).
  3. Manejo del ruido:
    1. Remueve datos considerados como ruido, duplicaciones, Valores llenados de manera incorrecta.
    1. Es costoso y consume alta cantidad de tiempo.
    1. Reduce el error.
    1. Requiere la revisión de toda la base de datos.
  4. Normalización de los datos:
    1. Transforma los datos en rangos, para permitir la comparación de los datos, cuando se presentan en diferentes escalas o unidades.
  5. Reducción de datos.
  6. Utilizada para data de muy grandes dimensiones; la debilidad es que reduce la calidad del proceso entrenamiento y la exactitud del modelo de aprendizaje.
  7. Implica que la data se presenta en forma comprimida, lo que genera pérdida de alguna información.
  8. Se subdivide en: selección de características y extracción de características.
    1. Selección de características: un subtipo de características es seleccionado desde la base de datos para ser usada en el proceso de aprendizaje. Puede ser realizado de manera automática o semiautomática. La decisión de remover o mantener la característica es basada en la aplicación que se desea dar.
      1. Wrapper: modelo de aprendizaje de máquina con efecto de “Black Box“, este modelo es alimentado con diferentes subtipos de características. Posteriormente se evalúa su ejecución con cada subtipo para determinar su eficiencia. El subtipo con mejor desempeño es el seleccionado. Existen dos modalidades dependiendo de la necesidad:
        1. Forward:
  9. Primero se considera un subtipo vacío, se seleccionan las características de la base de datos y se inserta en el subset.
  10. Se evalúa el desempeño del modelo, si se reduce el error del sistema comparado con otras características, este se adhiere al subset final.
  11. Este proceso continúa hasta que la tasa de error decrece.
    1. Backward:
  12. Se considera un subset con todas las características.
  13. Se selecciona una característica en cada paso y se remueve esta, el proceso continúa hasta que la tasa de error del modelo de aprendizaje disminuye.
  14. Embedded:
  15. Proceso de selección de características del componente de aprendizaje.
  16. Filtering:
  17. Una prueba de priorización es realizada para cada característica de la base de datos. La característica es clasificada con base en un criterio específico.
  18. El usuario escoge las características con rendimiento superior.
  • Extracción de características.
    • Mantiene las principales características de la base de datos y remueve su ruido y son las correlaciones del mismo. Los subtipos más importantes son:
  • Análisis de principales componentes: es un método de aprendizaje no supervisado, multivariado, que analiza los datos por extracción de información útil y muestra información en un escenario de variables que son denominadas componentes principales.
  • Análisis de discriminación lineal: Es un método de aprendizaje supervisado que encuentra combinación lineal de características que pueden ser divididas en dos o más clases. Realiza pruebas para maximizar la separación entre clases y generar una función de discriminación lineal.
  • Descomposición de valores singulares: Técnica de aprendizaje no supervisado. Es una versión generalizada del análisis de principales componentes que se considera una matriz de factorización. Da una óptima representación usando una matriz de bajo rango.

Por último, ante un escenario de datos escasos se ha utilizado un método denominado “Redes Neurales Adversariales”, un método de aprendizaje complejo con el cual se logra un aumento en el volumen a través de datos sintéticos o generados por la red neuronal y cuya mayor utilización ha sido en radiología (7).

LECTURAS RECOMENDADAS.

  1. Price WN., Cohen IG., Privacy in the Age of Medical Big Data. Nature Medicine 2019 (25): 37-43. https://doi.org/10.1038/s41591-018-0272-7
  2. Scott IA., Hope, Hype and Harms of Big Data, Internal Medicine Journal 2019 (49): 126-139. https://doi.org/10.1111/imj.14172
  3. https://es.m.wikipedia.org/wiki/Edward_Osborne_Wilson
  4. Rahmani AM., et al., Machine Learning (ML) in Medicine: Review, Applications, and Challenges, Mathematics 2021 (9): 1-52. https://doi.org/10.3390/math9222970
  5. Shammer K., te al., Machine Learning in Cardiovascular Medicine: Are We There Yet? Heart 2018;104:1156-1164
  6. Obermeyer Z., Emanuel EJ., Predicting the Future – Big Data, Machine Learnig, and Clinical Medicine. N Engl J Med 2016; 375 (13): 1216-9.
  7. Yi X., Walia E., Babyn P. Generative adeversal network in medical imaging: A review. Medical Image Analysis 2019 (58):1-20.https://doi.org/10.1016/j.media.2019.101552

Un comentario en “Pre-procesamiento de información para modelos de inteligencia híbrida (humana/computacional)

  1. Excelente resumen sobre BigData. Seguramente en un futuro, combinado con la inteligencia artificial se podrán desarrollar modelos predictivos que permitirán mejor atención en salud, permitiendo el cambio de medicina correctiva a medicina preventiva.

    Me gusta

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

A %d blogueros les gusta esto: