John Sprockel, Médico Especialista en Medicina Interna. Magister en Ingeniería de Sistemas y Computación. Profesor del Departamento de Medicina Interna de la FUCS
…Viene de la columna publicada la semana pasada.
CALIBRACIÓN:
La calibración se refiere a la concordancia entre los puntos finales observados y las predicciones. Una buena calibración no implica que el modelo ostente una adecuada exactitud. Es importante realizar su evaluación cuando se quieren emplear las probabilidades asociadas a las predicciones, si solo nos interesan las clasificaciones finales no aporta valor. Se ha postulado que los modelos de redes neuronales profundas modernas a menudo no están calibradas, lo que da como resultado que no es correcto interpretar los números pronosticados como probabilidades.
Una forma numérica para hacernos una idea acerca de la calibración de un modelo de clasificación binaria es el Brier score que se obtiene de la diferencia cuadrática media (mean
squared difference) entre la probabilidad estimada por el modelo y la probabilidad real (1 para la clase positiva y 0 para la negativa). Cuanto menor es su valor, mejor calibrado está el modelo. Se obtiene mediante la formula:

en la que N es el número de instancias de pronóstico, 𝑓𝑡 es la probabilidad calculada y 𝑜𝑡 el desenlace real del evento.
La prueba de bondad de ajuste (goodness of fit) de Hosmer-Lemeshow generalmente es aplicada a las regresiones logisticas, especialmente en modelos de predicción de riesgo. Le dice qué tan bien se ajustan sus datos al modelo calculando si las tasas de eventos observadas coinciden con las tasas de eventos esperadas en los subgrupos de población.
Se calcula mediante la formula:

Donde 𝑥2 es el chi cuadrado, 𝑛𝑗 es el número de observaciones del grupo jth, 𝑂𝑗 es el número de casos observados en el grupo jth y 𝐸𝑗 es el número de casos esperados en el grupo jth.
En la actualidad no se recomienda la aplicación de esta prueba para la evaluación de la calibración dado que no indica la dirección de ningún error de calibración y solo proporciona un valor P para las diferencias entre los puntos finales observados y previstos por grupo de pacientes, por otro lado, no tiene en cuenta el sobreajuste y tiende a tener poca potencia.
Una forma gráfica para evaluar la calibración con las predicciones son las Curvas de Calibración o Reliability Plots, que se construye luego de ordenar las predicciones del modelo de menor a mayor probabilidad y se agrupan en intervalos, luego se calcula la proporción de clasificaciones correctas en cada uno de ellos y finalmente calculando la confianza del intervalo como el valor promedio de las probabilidades estimadas por el modelo para todas las observaciones que forman parte de él. Cuanto mejor calibrado esté el modelo, más próximos serán los valores de proporción empírica y de confianza, es decir, más se aproxima la curva obtenida a la diagonal.

La Pendiente de Calibración (Calibration Slope) de ésta gráfica se encuentra relacionado con la contracción (shrinkage) de los coeficientes de regresión. Suele ser menor que 1 si un modelo se desarrolló en un conjunto de datos relativamente pequeño; tal hallazgo refleja que las predicciones eran demasiado extremas: la predicción baja era demasiado baja y las predicciones altas eran demasiado altas.
UTILIDAD CLÍNICA:
Si un modelo de predicción tiene como objetivo guiar las decisiones de tratamiento, se requiere un punto de corte para clasificar a los pacientes como de bajo riesgo (sin tratamiento) o de alto riesgo (el tratamiento está indicado), dicho corte es un umbral de decisión en el que la probabilidad de beneficio equilibra exactamente la probabilidad de daño. Por lo general, es difícil definir un umbral, ya que a menudo falta evidencia empírica del peso relativo de los beneficios y los daños, y algunos pacientes pueden estar preparados para asumir un mayor riesgo por un posible beneficio que otros. Es por ello que se recomienda tener un rango de umbrales al cuantificar la utilidad clínica de un modelo de predicción.
Una vez que se ha aplicado un umbral para clasificar a los pacientes como de bajo o alto riesgo, la sensibilidad y la especificidad se utilizan a menudo como medidas de utilidad. Nuevamente, es posible encontrar un equilibrio óptimo entre estos considerando los daños y beneficios del tratamiento, en combinación con la incidencia del criterio de valoración. La suma de la sensibilidad y la especificidad solo se puede utilizar como un indicador resumen de la utilidad, ya que dicha suma ignora el peso relativo de los verdaderos positivos (considerados en sensibilidad) y los falsos positivos (considerados en 1 – especificidad).
Las medidas de resumen propuestas recientemente y más apropiadas incluyen el Beneficio Neto (NB) que es consistente con el uso de un umbral de decisión óptimo para clasificar a los pacientes. El peso relativo de los daños y beneficios se usa para definir el umbral, y se usa para calcular una suma ponderada de clasificaciones de verdadero menos falso positivo. El valor máximo posible del beneficio neto es la prevalencia de la enfermedad, que solo se logra con un modelo de predicción perfecto.
El Análisis de la Curva de Decisión consiste en mostrar gráficamente el denominado beneficio neto obtenido al aplicar la estrategia de tratar a un individuo si y sólo si la probabilidad individual supera una probabilidad umbral establecida (𝑝𝑖>𝑝𝑡). Esta curva facilita la comparación entre modelos de predicción alternativos utilizados para calcular 𝑝𝑖, en este caso la mejor herramienta sería aquella que se separe en mayor medida de las curvas de tratar a todos o no tratar.

OTRAS ESTRATEGIAS:
Existen otras propuestas para demostrar las características de los modelos o su visualización. Solo quiero mostrar como ejemplo a los Diagramas de Cuerdas que pueden servir para exponer la distribución de las características de acuerdo a los grupos categorizados por un modelo.

Las siguientes son las ideas que debemos llevarnos a casa:
- Los trabajos que se desarrollan con modelos de inteligencia artificial deberían reportar las tablas de contingencia y el resultado de las características operativas de los modelos generados.
- Las áreas bajo la curva ROC o la exactitud no deberían ser el único parámetro por reportar mediante este tipo de estudios.
- Los intervalos de confianza serán de valor trascendental al momento de realizar la comparación de varios modelos.
- Para los modelos debería considerarse el reporte de las métricas para su calibración y siempre que fuera posible algún tipo de análisis de decisión
Lecturas Recomendadas:
- Bravo-Grau S, Cruz Q JP. Estudios de exactitud diagnóstica: Herramientas para su Interpretación. Revista chilena de radiología. 2015;21(4):158-64. doi: http://dx.doi.org/10.4067/S0717-93082015000400007.
- Silva Fuente-Alba C, Molina Villagra M. Likelihood ratio (razón de verosimilitud): definición y aplicación en Radiología. RAR. 2017;81(3):204-8. doi: http://dx.doi.org/10.1016/j.rard.2016.11.002.
- Cerda J, Cifuentes L. Uso de curvas ROC en investigación clínica: Aspectos teórico-prácticos. Revista chilena de infectología. 2012;29(2):138-41. doi: http://dx.doi.org/10.4067/S0716-10182012000200003.
- Saito T, Rehmsmeier M. The precision-recall plot is more informative than the ROC plot when evaluating binary classifiers on imbalanced datasets. PLoS One. 2015 Mar 4;10(3):e0118432. doi: 10.1371/journal.pone.0118432.
- Steyerberg EW, Vergouwe Y. Towards better clinical prediction models: seven steps for development and an ABCD for validation. Eur Heart J. 2014 Aug 1;35(29):1925-31. doi: 10.1093/eurheartj/ehu207.
- Steyerberg EW, Vickers AJ, Cook NR, Gerds T, Gonen M, Obuchowski N, Pencina MJ, Kattan MW. Assessing the performance of prediction models: a framework for traditional and novel measures. Epidemiology. 2010;21:128–138.
- Vickers AJ, Elkin EB. Decision curve analysis: a novel method for evaluating prediction models. Med Decis Making. 2006;26:565–574.
Un comentario en “Validación de los Modelos en IA: Lo que podemos aportar desde la Medicina y lo que deberíamos aprender de la Ingeniería. (Parte II)”