¿Cómo elegir entre validación de hipótesis o machine learning? – Parte 3

Andres Eduardo Rico Carrillo – Luis Eduardo Pino Villarreal Miembros Comite Ejecutivo AIpocrates

Lo más importante es entender la naturaleza del problema a resolver, no todo en salud aplica para validarlo convencionalmente pero tampoco todo requiere modelos de machine learning, una guía es nuestro artículo sobre “Inteligencia Artificial A la Carte”. Ahora bien, se propone esta lista de chequeo de 5 puntos para facilitar la decisión:

1. Defina bien lo que son instancias y características

Aunque tradicionalmente en las bases de datos las columnas son características o variables y las filas son instancias, a veces esa definición no es tan fácil. Lo que a veces parece ser una característica (un gen específico) puede perfectamente convertirse en una instancia (estudios con grupos de genes). Cuando hay múltiples instancias y pocas características es posible que la validación de hipótesis no sea el mejor método ya que además, cuando hay muestras con imbalance de datos el ML permite hacer over o undersampling (escribiremos sobre eso en otras columnas) para optimizar el desempeño del modelo.

2. Liste las decisiones binarias por realizar

Las decisiones binarias se dividen en las asociadas a las características o variables y las relacionadas con otras instancias. Por ejemplo, definir si un gen es un biomarcador predictivo o no es una decisión asociada a las variables mientras que si un paciente tiene o no una enfermedad es una pregunta relacionada con las instancias. La validación de hipótesis responde únicamente a las preguntas asociadas con las variables mientras los modelos ML solamente lo hacen a las decisiones asociadas con las instancias.

3. Evalúe la disponibilidad de respuestas binarias conocidas desde los datos

Es decir, ¿los datos contienen alguna respuesta conocida?, si ya se tiene una respuesta a la pregunta binaria, no se puede formular una pregunta para generar “una prueba de hipótesis “, pero si algunas instancias contienen marcas binarias conocidas y el resto no las tienen, nos enfrentamos a una tarea de “clasificación binaria” que va mejor con ML.

Por otro lado, si los datos NO contienen marcas binarias (labels), no se cuenta con posibilidades de un referente para el entrenamiento y para construir el clasificador, entonces no se pueden predecir etiquetas desconocidas de las instancias, es decir no intentes ML.

4. Cuente el número de instancias para cada decisión binaria

Las reglas de decisión pueden ser por pruebas estadísticas o clasificadores, con la forma de una fórmula o un programa de computación, que puede tomar los datos como entrada (input) y las respuestas binarias como salidas (output).

Para mayor sencillez, si hay posibilidad de tener un output por cada input es posible ejecutar modelos de ML, si por el contrario requerimos más de una instancia para poder generar un solo output de decisión entonces tendremos que valernos de validación de hipótesis.

5. Evaluar la naturaleza de las preguntas binarias.

Evalúe cada pregunta binaria por su naturaleza. Es decir ¿queremos buscar algo particular en un universo o un universo de algo particular?

Por ejemplo, si nos preguntamos el que un gen sea o no marcador de una enfermedad es una particularización de las instancias ya que el descubrir esta asociación implica diferenciar un subgrupo de una muestra mayor. Al contrario, descubrir si un individuo de un universo tiene una enfermedad que contiene múltiples instancias es la generalización de una particularidad.

En el primer caso es posible que la validación de hipótesis sea el método (para el gen biomarcador) mientras que en la segunda los modelos de ML tengan mejor desempeño (encontrar un individuo con enfermedad compleja en el universo).

Mejor analicémoslo visualmente:

Caso 1:

Hay un buen volumen de instancias (muestras) que no tienen una clasificación binaria (SI/NO) y por tanto requieren un análisis estadístico con poder suficiente para validar y/o rechazar una hipótesis nula (el gen no es un biomarcador de la enfermedad X)

Caso 2:

Hay un numero usualmente menor de instancias con una posibilidad de rotulo binario (SI/NO tiene la enfermedad), por tanto, hay un set de datos para el entrenamiento mediante la construcción de un clasificador que “automáticamente” diferencie y localice a cada individuo en una u otra categoría (predicción).

Algunos algoritmos están diseñados para cumplir con los dos propósitos o estrategias. La más conocida es la regresión logística, que puede realizar la clasificación y hacer un abordaje de prueba de hipótesis para decidir si existe o no asociación entre características y propiedades a nivel binario. Sobre este y otros modelos escribiremos posteriormente.

Nuevamente es clave recordar que no es esto una competencia entre dos métodos sino en el saber elegir y entender el mejor de ellos, acorde con el problema y los datos disponibles, en beneficio de obtener correlaciones más exactas que -ojalá algún día- nos coloquen más cerca de lo que algunos suelen llamar evidencia y otros verdad.

Lectura Recomendada

  1. Jingyi Jessica Li, Xin Tong. Statistical Hypothesis Testing versus Machine Learning Binary Classification: Distinctions and Guidelines. Patterns,Volume 1, Issue 7, 2020. 100115. ISSN 2666-3899, https://doi.org/10.1016/j.patter.2020.100115.

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

A %d blogueros les gusta esto: