Validación de los modelos en la IA: Lo que podemos aportar desde la Medicina y lo que deberíamos aprender de la Ingeniería. (parte 1)

Por: John Jaime Sprockel Díaz. Médico Especialista en Medicina Interna. Magister en Ingeniería de Sistemas y Computación.

“No existe la prueba perfecta”
Esta es una aseveración con la que tarde o temprano nos encontraremos al momento de abordar desde la epidemiología clínica las pruebas diagnósticas y por extrapolación, los modelos de predicción. Pero como sabremos que es así, ¿en qué consiste esa perfección?, y ¿cómo es aplicado esto en inteligencia artificial?.

En los siguientes párrafos intentaré revisar de una forma sucinta pero completa, la forma como se lleva a cabo el proceso de validación interna de los modelos de inteligencia artificial, centrando la atención a los problemas de diagnóstico y pronóstico; así como identificar las tendencias recientes y posibles aportes desde la medicina. Debo dejar en claro que no se abordan los diferentes diseños de los estudios para este tipo de pruebas.

Error Cuadrático Medio:
Se trata de la medida que de forma más frecuente se pretende optimizar durante la fase de entrenamiento de un modelo de inteligencia artificial bien sea mediante estrategias de gradiente u otras. De acuerdo con Wikipedia: “mide el promedio de los errores al cuadrado, es decir, la diferencia entre el estimador y lo que se estima”. Su formulación es:

Si 𝑌̂ es un vector de 𝑛 predicciones y 𝑌 es el vector de los verdaderos valores, entonces el (estimado) ECM del predictor es:

Habitualmente, su expresión numérica no nos brinda mayor información acerca del desempeño de un modelo, pero fue la primera forma en la que se nos presentaron los resultados y sigue mostrándose dentro de las gráficas de desempeño de su entrenamiento como la función de pérdida.

*https://es.wikipedia.org/wiki/Error_cuadr%C3%A1tico_medio

CARÁCTERÍSTICAS OPERATIVAS
Desde la medicina estamos muy familiarizados con el significado de la sensibilidad y la especificidad para la evaluación del valor de una prueba, en principio permiten comparar directamente la eficacia de una prueba con el de otras y esperar resultados similares cuando son aplicadas en poblaciones diferentes. Su cálculo se deriva de una tabla de contingencia o tabla de 2×2 procedente habitualmente de un estudio de corte trasversal aplicando la prueba estándar de referencia como comparador:

La sensibilidad indica la capacidad de la prueba para detectar a un sujeto enfermo, mientras que la especificidad indica la capacidad que tiene la prueba de identificar como sanos (no enfermos) a los que efectivamente lo son. Estas dos características no son muy indicativas de como se deba interpretar un resultado (positivo o negativo) aplicado a un individuo y por ello se cuenta con los Valores Predictivos:

Otra herramienta que resume la precisión de una prueba diagnóstica la constituyen las Razones de Verosimilitud o Likelihood Ratio (LR), se dice que permiten un uso clínico más intuitivo.

El LR positivo pretende responder a la pregunta: ¿Cuántas veces más probable es que la prueba sea positiva en los enfermos que en los no enfermos?, lo que se busca es que sea un
número muy grande. Mientras que el LR negativo indica ¿cuántas veces más probable es que la prueba sea negativa en los enfermos que en los no enfermos?, buscando que en este caso sea un número muy pequeño.

A partir de las probabilidades condicionadas o estadística Bayesiana se ha derivado como aplicabilidad práctica del likelihood ratio la capacidad de modificar la probabilidad pretest que motivó la solicitud de esta prueba diagnóstica (probabilidad pretest).
En esta misma línea se ubica la Odds Ratio Diagnóstica (DOR) se constituye en un índice único que traduce las prestaciones de una prueba con un solo valor que no está influenciado por la prevalencia (a diferencia de los valores predictivos). Se define como la razón entre el chance (odds) de estar enfermo si la prueba da positivo y el chance de no estar enfermo si la prueba da negativo:

Cuanto más altos son los valores, mejor es la prueba teniendo en consideración que un valor de 1 se considera que la prueba no es discriminante.

Hasta este punto nos hemos centrado en pruebas cuyo resultado es dicotómico, pero suele presentarse la situación en que el resultado es un valor cuantitativo u ordinal. En estos casos se debe determinarse el punto de corte óptimo que permite declarar enfermos de sanos. Para ello se debe tener en consideración que existe una relación inversa entre la sensibilidad y la especificidad para diferentes valores, ante lo que debe decidirse a que dar prelación: a la sensibilidad como el proceso de tamizado, o bien a la especificidad en el caso de pruebas confirmatorias.
La Curva de Características Operacionales del Receptor (Receiver Operating Characteristic Curve, o curva ROC) se construye al representar en dos ejes de coordenadas los puntos (x, y) dados por (1-Especificidad, Sensibilidad) para cada punto de corte. Suele seleccionarse el punto de corte óptimo mediante el índice de Youden:

γ=𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑+𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑−1

Gráficamente, se corresponde en la curva ROC al valor más cercano al ángulo superior-izquierdo del gráfico (punto 0,1), es decir, sensibilidad del 100% con especificidad del 100%. Con el fin de evaluar la capacidad discriminativa de una prueba el parámetro a estimar es el Área Bajo la Curva ROC (AUC, Area Under the Curve), que es una medida única e independiente de la prevalencia de la enfermedad. Bajo la consideración de un área total del recuadro de 1, el área bajo la curva se dividirá de acuerdo a su resultado según la interpretación de Swets en: a) baja exactitud: entre 0,5 y 0,7, b) útiles para algunos propósitos: entre 0,7 y 0,9, y c) alta exactitud: entre 0,9 y 1,0.

Una de las aplicaciones más directas de las curvas ROC consisten en su capacidad para comparar la eficacia de dos o más pruebas.

El punto de vista de las ingenierías:
Para iniciar debemos indicar que se suelen reconocer otros nombres para las pruebas anteriores:
Sensibilidad: se le llama Recall, tasa de aciertos (Hit Rate), probabilidad de detección, poder o Tasa de Verdaderos Positivos (TPR).
Especificidad: como Selectividad o Tasa de Verdaderos Negativos (TNR)
Valor Predictivo Positivo: se le denomina Precisión

Suele hablarse también de otras medidas adicionales:
La Exactitud (o Accuracy) es el porcentaje total de aciertos de la prueba (tanto en casos positivos como negativos):

La Exactitud Balanceada (bACC) normaliza las predicciones positivas verdaderas y negativas verdaderas por el número de muestras positivas y negativas, respectivamente, y divide su suma por dos:

Puntuación de Amenazas (Threat score o TS), Índice de Éxito Crítico (CSI) o Índice de Jaccard:

F1-score: Se trata de una medida que combina la Sensibilidad (Recall) y con la Precisión (VPP) siendo la media armónica de ambas:

En términos de selección de modelo, F1-score resume la habilidad del modelo para un umbral de probabilidad específico, mientras que el área bajo la curva resume la habilidad de un modelo a través de varios umbrales.

Una explicación del por qué existen tantas métricas es debido a que en la mayoría de los casos los conjuntos de datos se encuentran desequilibrados (con una falta de balance entre los diferentes resultados posibles) situación en la cual las métricas tradicionales suelen ser engañosas, en especial la exactitud, lo que llevó a plantear la exactitud balanceada y al F1 score en una primera instancia.
Una forma diferente para el análisis gráfico del desempeño de un modelo lo constituye las precision-recall curves (curvas que relacionan el VPP con la sensibilidad) en las que se resume el compromiso entre la tasa positiva verdadera y el valor predictivo positivo para un modelo predictivo que utiliza diferentes umbrales de probabilidad. Se deriva del campo del information retrieval (búsqueda de documentos basados en consultas). Se ha planteado que las curvas ROC son adecuadas cuando las observaciones están equilibradas entre cada clase, mientras que las curvas precision-recall son adecuadas para conjuntos de datos desequilibrados.

Espere la segunda entrega de ésta columna el próximo domingo.

Lecturas Recomendadas:

  1. Bravo-Grau S, Cruz Q JP. Estudios de exactitud diagnóstica: Herramientas para su Interpretación. Revista chilena de radiología. 2015;21(4):158-64. doi: http://dx.doi.org/10.4067/S0717-93082015000400007.
  2. Silva Fuente-Alba C, Molina Villagra M. Likelihood ratio (razón de verosimilitud): definición y aplicación en Radiología. RAR. 2017;81(3):204-8. doi: http://dx.doi.org/10.1016/j.rard.2016.11.002.
  3. Cerda J, Cifuentes L. Uso de curvas ROC en investigación clínica: Aspectos teórico-prácticos. Revista chilena de infectología. 2012;29(2):138-41. doi: http://dx.doi.org/10.4067/S0716-10182012000200003.
  4. Saito T, Rehmsmeier M. The precision-recall plot is more informative than the ROC plot when evaluating binary classifiers on imbalanced datasets. PLoS One. 2015 Mar 4;10(3):e0118432. doi: 10.1371/journal.pone.0118432.
  5. Steyerberg EW, Vergouwe Y. Towards better clinical prediction models: seven steps for development and an ABCD for validation. Eur Heart J. 2014 Aug 1;35(29):1925-31. doi: 10.1093/eurheartj/ehu207.
  6. Steyerberg EW, Vickers AJ, Cook NR, Gerds T, Gonen M, Obuchowski N, Pencina MJ, Kattan MW. Assessing the performance of prediction models: a framework for traditional and novel measures. Epidemiology. 2010;21:128–138.
  7. Vickers AJ, Elkin EB. Decision curve analysis: a novel method for evaluating prediction models. Med Decis Making. 2006;26:565–574.

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

A %d blogueros les gusta esto: