¿Datos y seguridad para todos? Una mirada hacia los datos federados

Dra. Alexandra Jiménez.

En esta época donde los datos se están generando en gran volumen y a gran velocidad a través de múltiples dispositivos en una persona, los computadores de muchas personas e instituciones al mismo tiempo, es denominado por muchos como una mina de oro.

El campo de la salud no es la excepción, sin embargo, se presentan una serie de particularidades, por ejemplo en los registros médicos electrónicos, la cantidad de datos no estructurados que los hace heterogéneos, formatos de almacenamiento variados no homogéneos y la pobre calidad y organización de los datos en silos (repositorios o lagos) de información, en su mayoría impenetrables pues las instituciones guardan con recelo; que no los hacen ajenos a alteraciones en la distribución, por plataformas que no son interoperables, canales de comunicación insuficientes y las amenazas en ciberseguridad.

No se puede dejar de lado el aspecto legal y ético relacionado con la preocupación por los riesgos en la privacidad y la confidencialidad.

Se están realizado grandes esfuerzos para crear modelos de aprovechamiento de datos y para tratar de organizar y compartir mejor la información en salud, además de propender por el desarrollo de una nueva disciplina, una evolución hacia la medicina de precisión; pero  ¿Cuál sería ese camino, ese modelo disruptivo aplicable a los datos que fuera un paso adelante para el uso local/institucional, pero que permitiera el aprovechamiento regional con mínimos riesgos de transgresión ética? pues esta es la opción que ofrece el aprendizaje federado.

¿Qué es?

Para el desarrollo de modelos de inteligencia artificial, especialmente de aprendizaje de máquina supervisado, se requiere un data set que sirva de entrenamiento y otro de validación, a mayor tamaño, se tiene una mayor probabilidad de un mejor entrenamiento y por ende aumenta la  posibilidad que el modelo sea generalizable.

El paradigma de “aprendizaje federado”  se describe como un trabajo colaborativo entre hospitales, centros de enseñanzas, puestos de salud, wereables, entre otros, que ofrece intercambio de datos ya procesados, anonimizados garantizando una preservación de la privacidad; es decir,  permite el desarrollo de un ecosistema de salud abierto, que elimina el requisito de agrupación de datos,

¿Cómo lo hace?

El procesamiento y el almacenamiento de los datos en los repositorios de datos, es descentralizado, es decir, se ejecuta en cada institución y permite el entrenamiento de modelos de aprendizaje, mientras aborda los problemas de transferencia de datos, privacidad y seguridad para cada parte interesada. 

Para el desarrollo del modelo de aprendizaje federado se han descrito que tiene 4 componentes:

  • Servidor/nodo central : orquesta el entrenamiento y la implementación de los  modelos remitidos desde los servidores locales y sirve como campo de juego para crear un modelo global. 
  • Servidor local/dispositivos/nodo : Datos del mundo real, locales , personales
  • Modelo local: este es cualquier tipo de modelo de aprendizaje de máquina supervisado que se entrena con los datos presentes en el servidor local.
  • Modelo global: El modelo final obtenido al ensamblar información de diferentes modelos locales.

Ejemplo:

En Colombia varias instituciones pediátricas atienden una misma enfermedad, el cáncer, cada Centro tiene sus datos almacenados cuidadosamente en registros electrónicos, con un formato diferente, con baja interoperabilidad con los software de otras instituciones, con una población usualmente restringida a un área geográfica, lo que  puede introducir sesgos por: las características demográficas (p. ej., sexo, edad), los desequilibrios técnicos (p. ej., acceso a hardware de vanguardia, acceso a internet, ancho de banda y herramientas de ciberseguridad), sesgos que distorsionan las predicciones y afectan negativamente la precisión de los algoritmos al intentar generalizar el modelo, especialmente con minorías que pueden estar subrepresentadas.

Cada institución podría tener algoritmos y modelos propios exitosos, que capturen relaciones sutiles entre patrones de enfermedades, factores socioeconómicos y genéticos, así como casos raros y complejos; es crucial exponer un modelo a diversos casos durante el entrenamiento y la validación, donde lo ideal es el mayor número posible de los mismos, que en forma particular no lograría tener ninguna institución.

Sin embargo, si los hospitales decidieran formar un equipo y construir un modelo federado  para ayudar a analizar automáticamente las imágenes de tumores cerebrales en niños, cada institución tendría un algoritmo y un modelo local de procesamiento de datos y de  entrenamiento en su propio conjunto de datos, este nodo o servidor local comunicaría periódicamente los datos y las actualizaciones locales al  servidor central, que permite al modelo global aprender. 

Este servidor central alojaría la red neuronal profunda global entrenado con los datos de las múltiples fuentes, que agregaría las actualizaciones y las contribuciones de todos los participantes y periódicamente cada hospital participante recibiría una copia actualizada, es decir el servidor devolvería los parámetros del modelo global actualizado al servidor local, que mantendrían el conjunto de datos dentro de su propia infraestructura segura, esto permite la capacitación de los algoritmos locales.

Si uno de los hospitales decidiera dejar el equipo de capacitación, esto no detendría la capacitación del modelo, ya que no depende de ningún dato específico; si  un nuevo hospital  quiere ingresar podría por sumarse a la iniciativa en cualquier momento porque cada participante obtiene conocimientos globales a partir de datos locales: es un gana-gana

Esquema aprendizaje federado.  Modificado (2)

Ventajas

El objetivo de usar un modelo federado es la interoperabilidad de datos, un entrenamiento local sensible a las enfermedades con baja prevalencia para que se  produzcan decisiones imparciales, que refleje de manera óptima la fisiología de un individuo y que respeta a la vez  la gobernanza y privacidad.

Beneficios para los actores del sistema:

  • Pacientes: se benefician de la escala global del modelo federado porque podría garantizar una alta calidad de las decisiones clínicas, un tratamiento más enfocado, reduciendo así el costo. Mayor  precisión y solidez.
  • Instituciones de salud: pueden mantener el control total y la posesión de los datos de sus pacientes con una trazabilidad completa del acceso a los datos, lo que limita el riesgo de uso indebido por parte de terceros. Pero requiere inversión en infraestructura informática local o provisión de servicios de nube, inversión que varía si solo participa en evaluación y prueba o también en capacitación. Instituciones pequeñas pueden participar y se beneficiarán de los modelos colectivos generados.
  • ·         Fabricantes de software y hardware : facilita la validación o mejora continua de sus sistemas basados ​​en ML al combinar el aprendizaje de muchos dispositivos y aplicaciones, sin revelar información específica del paciente, pero requiere actualizaciones periódicas de  almacenamiento de datos y capacidad de red entre otras.

Desventajas

  • Investigadores: no es posible observar un caso de falla individual para comprender porque el modelo actual funciona mal en un paciente, porque no puede determinar o visualizar todos los datos en los que se entrena el modelo; así mismo persisten los problemas inherentes al aprendizaje de datos médicos, la baja  calidad de los datos, el sesgo y la falta de estandarización 
  • No se  pueden investigar datos sobre qué modelos se están entrenando para dar sentido a resultados inesperados; pero cada institución tendrá acceso a sus propios datos sin procesar, las federaciones pueden decidir proporcionar algún tipo de instalación segura de visualización dentro del nodo para satisfacer esta necesidad o pueden proporcionar alguna otra forma de aumentar la explicabilidad y la interpretabilidad del modelo global.
  • Capacitación: Dado que todos los conjuntos de datos recopilados pueden no ser de alta calidad, es muy útil que los médicos vean los criterios de diagnóstico de la inteligencia artificial, para mejorar la precisión del modelo durante el proceso de capacitación. En 2016, IBM presentó Watson for Oncology, una herramienta que utiliza el sistema de procesamiento de lenguaje natural para resumir los registros de salud electrónicos de los pacientes y buscar en la base de datos para asesorar a los médicos sobre los tratamientos, sin embargo, algunos oncólogos dicen que confían más en su juicio que lo que Watson les sugiere o indica, para aumentar la confianza en los resultados del procesamiento, es fundamental que los médicos participen en el proceso de capacitación del modelo

¿Cómo preservar la seguridad?

El manejo de datos, genera desafíos normativos, éticos y legales, relacionados con la privacidad y la protección de datos, particularmente en modelos centrados, donde anonimizar los pacientes, controlar el acceso y transferir de forma segura los datos no es una tarea sencilla, de hecho  en ocasiones, es  imposible. Los datos anónimos de la historia clínica electrónica pueden parecer inocuos y compatibles, pero algunos elementos pueden permitir la re-identificación del paciente, como los datos genómicos y las imágenes médicas.

Dado que el aprendizaje federado no almacena datos sin procesar de usuarios individuales en un servidor central, no hay posibilidad de que se piratee un servidor central y se filtren datos sin procesar. Esto proporciona más privacidad a los usuarios al registrar datos confidenciales.

Aunque hay superioridad en términos de privacidad de un modelo federado frente a una centrado, existen situaciones de riesgo durante la aplicación del modelo que requieren una protección estricta entre las partes.

La capacitación puede operar a través de algún de opciones como:

  • Sistema de «intermediario honesto», en el que un tercero de confianza actúa como intermediario y facilita el acceso a los datos.
  • Sistema el  peer-to-peer, donde cada sitio interactúa directamente con algunos o todos los demás participantes, no hay una función de guardián, es una en una arquitectura basada en confianza, donde el  operador de la plataforma puede estar bloqueado criptográficamente para que sea honesto por medio de un protocolo seguro.
Esquemas de preservación de la privacidad. a. los valores de seguridad ( azul y amarillo) se dividen en cualquier cantidad de acciones que se distribuyen entre los nodos informáticos, durante el cálculo, ningún nodo puede recuperar el valor original ni aprender nada sobre la salida (verde).  b . Garantiza que cualquiera que vea el resultado de un análisis diferencialmente privado hará la misma inferencia (la respuesta 1 y la respuesta 2 son casi indistinguibles).Adaptado (2

Lo  que viene

La capacidad de usar estratégicamente los datos es fundamental, en consecuencia, garantizar la calidad de los datos es clave para mejorar el modelo de aprendizaje automático, ya sea federado o no. Sin embargo el aprendizaje  federado es un enfoque prometedor para obtener modelos potentes, precisos, seguros, robustos e imparciales. 

Al permitir que varias partes entrenen en colaboración sin la necesidad de intercambiar o centralizar conjuntos de datos, puede abrir nuevas vías de investigación y tiene el potencial de impactar sobre la verdadera medicina de precisión, con una intervención de gobernanza y sin duda como fuente de un mayor enfoque de seguridad, valdría la pena preguntarse si las subredes de salud en Bogotá podrían ser un nicho donde este tipo de modelos podría ser no solo exitoso,  sino necesario. 

Referencias

  1. Rieke N. The future of digital health with federated learning. NPJ Digit Med. 2020 Sep 14;3:119. doi: 10.1038/s41746-020-00323-1. PMID: 33015372; PMCID: PMC7490367.
  2. Xu, J., Glicksberg, B.S., Su, C. et al. Federated Learning for Healthcare Informatics. J Healthc Inform Res 5, 1–19 (2021). https://doi-org.ezproxy.umng.edu.co/10.1007/s41666-020-00082-4
  3. Anshik. Federated Learning and Healthcare. In: AI for Healthcare with Keras and Tensorflow 2.0. Apress, Berkeley, CA. (2021).  https://doi-org.ezproxy.umng.edu.co/10.1007/978-1-4842-7086-8_7
  4. Liu JC. Learning From Others Without Sacrificing Privacy: Simulation Comparing Centralized and Federated Machine Learning on Mobile Health Data. JMIR Mhealth Uhealth. 2021 Mar 30;9(3):e23728. doi: 10.2196/23728. PMID: 33783362; PMCID: PMC8044739.
  5. Asad M. A Critical Evaluation of Privacy and Security Threats in Federated Learning. Sensors (Basel). 2020 Dec 15;20(24):7182. doi: 10.3390/s20247182. PMID: 33333854; PMCID: PMC7765278.

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

A %d blogueros les gusta esto: