
De la historia clínica electrónica al diagnóstico genético
El fenotipo de algunas enfermedades puede ser complejo y presentar un evolutivo multidimensional. Estas diferencias suelen ser capturadas por las imágenes diagnósticas, diferentes análisis bioquímicos, y el uso de biomarcadores de precisión, ensayos que se pueden ser solicitados en diferentes momentos de la enfermedad y por diversos profesionales en el curso de la identificación de un diagnóstico diferencial (21). Estos resultados se documentan en la historia clínica electrónica donde se sintetizan los hallazgos para facilitar la toma de decisiones y comunicar las decisiones clínicas. Los sistemas de IA facilitan el reconocimiento de patrones en estos registros. Un estudio reciente que involucró más de 500.000 pacientes utilizó un modelo para procesamiento natural del lenguaje (Natural language processing) basado en IA para extraer características clínicamente relevantes de la información consignada (22). Después de entrenar al modelo estadístico jerárquico y escalonado sobre la base de divisiones anatómicas se generó un sistema diagnóstico adaptado capaz de diferenciar 55 diagnósticos pediátricos comunes con un 92% de precisión. En paralelo, el uso del modelo vinculado a información genómica permitió estratificar enfermedades raras en los niños y clasificar coincidencias con variantes patogénicas extraídas del análisis del genoma de los pacientes (23). En 101 niños con 105 enfermedades genéticas, la valoración retrospectiva de los diagnósticos genómicos por vía automatizada coincidió con la interpretación humana experta con un 99% de precisión (24).
Desafíos en la interpretación de la genómica tumoral
La secuenciación de próxima generación (NGS, Next Generation Sequencing) ha revolucionado la investigación biomédica permitiendo la generación de estudios multicapa que integran datos genómicos en diversas dimensiones, incluyendo el ADN-seq y la ARN-seq, así como información multiómica que incluye al proteoma, epigenoma, metaboloma, microbioma, etc (25). Esta fusión proporciona una visión más completa de los procesos y sistemas biológicos, lo que conduce a una mejor comprensión de la enfermedad, especialmente en comparación con el análisis de una sola capa. Sin embargo, existen varios desafíos para la traducción de datos multiómicos en biomarcadores clínicamente procesables. Primero, combinar perfiles de datos en varios niveles daría como resultado una alta dimensionalidad con un gran número de covariables. La escasez de datos de alta dimensionalidad asociada a la alta heterogeneidad entre los diversos tipos de datos impone una dificultad significativa en los análisis integrativos. Se han desarrollado diferentes técnicas para reducir estas dimensiones, incluyendo el análisis de co-inercia múltiple y el análisis de factores múltiples, diseños útiles para facilitar los análisis en la transcripción corriente abajo (down stream signaling). Varios marcos se han utilizado para la integración, incluyendo los enfoques basados en redes que utilizan algoritmos gráficos para capturar interacciones potenciales entre las redes moleculares, y modelos bayesianos de varios niveles que imponen suposiciones realistas para la estimación de parámetros a través de una estructura de entrada y salida (26,27). En segundo lugar, la integración de datos multiómicos requiere la mejor progresiva de los estándares para la generación de resultados, facilitando la interpretación y reduciendo el sesgo.
Por otra parte, los procedimientos para la adquisición y preparación de las muestras deben estar correctamente regulados para cada una de las plataformas de secuenciación y entre ellas. Por ejemplo, para la información derivada del análisis por NGS se necesita material de referencia (CLSI QMS01-A 2018; CLSI MM01A3E 2018; NIST 2018) cuyas propiedades sean suficientemente homogéneas y estén bien establecidas para la calibración del sistema de secuenciación. Por último, pero no menos importante, se necesitan estudios bien diseñados que permitan hacer inferencia causal para filtrar los biomarcadores que tienen fuertes efectos predictivos (28).
La diversidad de la evidencia puede contribuir con la inferencia patogénica de las variantes, incluidos datos genéticos, informáticos y experimentales. A nivel genético, las variantes patogénicas pueden enriquecerse significativamente a partir del análisis de casos y controles y/o ante la evidencia de una variante germinal que afecta el estado de la enfermedad dentro de una familia afecta. En el nivel informático, las variantes patogénicas se pueden encontrar en el lugar que se predice que causará una alteración funcional (región de unión a proteínas). Y a nivel experimental, las variantes patogénicas pueden alterar significativamente los niveles, el empalme o la función bioquímica normal del producto de los genes afectados. Esto puede mostrarse en células de pacientes o bien puede ser validado con modelos in vitro o in vivo (29,30).
El avance de las tecnologías relacionadas con machine learning está destinado a afectar la interpretación de los datos provenientes de la secuenciación genómica, que tradicionalmente se basó en la curación manual. Estos esfuerzos de purificación se basan en la estructura de proteínas, estudios funcionales y, más recientemente, en modelos «in silico» que predicen el impacto funcional de la alteración genética usando plataformas como SIFT, PANTHER-PSEP, PolyPhen2 y otros (30). En adición, las bases de datos genómicas como ClinVar, COSMIC y OncoKB han proliferado como medio para compilar de manera concisa una colección de las variantes genéticas (Figura 3). En general, proporcionan la evidencia que respalda la clasificación de una variante como patogénica, benigna o de significado desconocido (VUS).

Dos de las limitaciones clave de la curación e interpretación manual de los resultados derivados de datos genómicos crudos son la escalabilidad y la reproducibilidad. Estos desafíos continúan creciendo a medida que se dispone de más información. La cantidad de expertos en clasificación de variantes y la cantidad de tiempo que pueden dedicar diariamente a esta tarea es limitada. Para abordar estas limitaciones, varias organizaciones están trabajando en crear y estandarizar protocolos para la clasificación de variantes, incluyendo el American College of Medical Genetics and Genomics y la Association for Molecular Pathology (ACMG-AMP), quienes ya publicaron una serie de directrices para la interpretación de variantes genéticas de la línea germinal y somática para genes causantes de trastornos hereditarios y del cáncer (31,32). Sin embargo, la capacidad de escalar la interpretación de variantes provenientes de los estudios de NGS, especialmente en cáncer, sigue siendo limitada, requiere validación y un estricto control de calidad (33). Recientemente se presentó la plataforma OncoTree que incluye 886 tipos de tumores originados en 32 complejos tisulares; esta plataforma fue adoptada como sistema de clasificación para el proyecto Genomics Evidence Neoplasia Information Exchange (GENIE) de la Asociación Estadounidense para la Investigación del Cáncer (AACR), un gran consorcio de intercambio de datos genómicos y clínicos, para amplificar y unificar el esfuerzo de OncoKB y cBioPortal for Cancer Genomics (34).
Cómo la integración de la NGS y la IA están cambiando el panorama de la genómica tumoral
Actualmente, la NGS se aplica ampliamente como método valioso para obtener un perfilamiento genómico exhaustivo. Gracias a esta tecnología se ha logrado secuenciar simultáneamente millones de fragmentos de ADN en una sola muestra para detectar una amplia gama de aberraciones propias del cáncer. Los paneles de cáncer están diseñados específicamente para detectar mutaciones somáticas y germinales clínicamente relevantes. De igual forma, la caracterización molecular usando NGS por biopsia líquida facilita el diagnóstico temprano, la evaluación de la heterogeneidad tumoral y de la enfermedad mínimas residual siguiendo un principio no invasivo. Gracias a estos modelos de tipificación genómica se abrieron proyectos como el Cancer Genome Atlas (TCGA) que ha permitido el descubrimiento de nuevos mecanismos oncogénicos y la estratificación de pacientes y enfermedades (35). La información utilizada para dilucidar los mecanismos primarios en la evolución del cáncer ha permitido elucidar el metabolismo oxidativo de las células tumorales (36), validar la utilidad de biomarcadores predictivos como la metilación del promotor de la MGMT en tumores de estirpe glial (37), proyectar el efecto terapéutico de la inmunoterapia en cáncer gástrico (38), confirmar la utilidad in silico de mutaciones particulares en cáncer de pulmón (38), y considerar a la transición epitelio mesenquimal como parte de la resistencia en cáncer de seno (39), entre muchos otros.
Uno de los mayores retos de la genómica tumoral está asociado con el llamado, depuración e interpretación de las variantes. Frecuentemente, los usuarios necesitan ajustar los parámetros de forma heurística y aplicar filtros personalizados para eliminar los falsos positivos antes de lograr una precisión aceptable. Este es un esfuerzo que requiere tiempo y experiencia para ajustar las puntuaciones de calidad y los atributos dentro de los contextos de secuenciación. Diferentes grupos están aprovechando algoritmos de aprendizaje automático y el entrenamiento en las características de calidad subyacentes para mejorar el rendimiento del llamado de variantes, especialmente en escenarios subóptimos (40-43). Estos, han permitido establecer el valor de la ploidía como factor que contribuye con la complejidad de la enfermedad. De igual forma, contribuyeron para establecer el valor de las variantes subclonales (presentes solo en unas pocas células), difíciles de detectar porque su representación en la librería de secuenciación suele ser baja. Este hallazgo resulta en una mayor variabilidad entre los métodos de análisis, los umbrales y las puntuaciones de calidad que pueden no ser lo suficientemente flexibles para detectar la evolución subclonal de la enfermedad (41). En lugar de configurar reglas estáticas, los métodos de IA permiten ajustar los umbrales de forma dinámica en función de los patrones de expresión génica. Las variantes con frecuencias alélicas muy bajas aún se pueden informar si la profundidad de secuenciación y otras métricas de calidad superan los umbrales. Por ejemplo, un modelo de red neuronal convolucional cuyos algoritmos se utilizan a menudo en el reconocimiento de imágenes logró una puntuación F1 de 0.96 y pudo alcanzar variantes con una frecuencia de alelos tan baja como 0.0001 (la puntuación F1 es una medida que tiene en cuenta tanto la precisión como la memoria) (44). En otro caso, un enfoque basado en machine learning aplicado a los datos de NGS mostró una precisión mejorada (medida por la puntuación F1) en la identificación de mutaciones tumorales en comparación con otros programas existentes como MuTect1, MuTect2, SomaticSniper, Strelka, VarDict y VarScan2. Si bien sus valores de recuperación fueron similares, la plataforma de IA mostró mayor precisión (45). Se han descrito éxitos similares para el análisis de variación del número de copias (CNV) (46,47).
Además de los paradigmas para la detección de variantes estándar, DeepVariant de Google transformó un problema de convencional en otro para el reconocimiento de imágenes al convertir un archivo BAM en imágenes similares a las instantáneas del navegador del genoma, donde el llamado de variantes se hace utilizando el marco Inception Tensor Flow que se desarrolló originalmente para la clasificación visual computarizada (48). Otro estudio reciente aplicó con éxito el machine learning para la secuenciación de datos de múltiples regiones de un tumor permitiendo identificar y aprender patrones de crecimiento como predictores precisos de la progresión del tumor (49). Adicionalmente, se están entrenando otros modelos de IA para caracterización de estructuras secundarias incluyendo fosforilación proteica en respuesta a la administración de medicamentos (contemplando la dosis biológica efectiva) (50). Finalmente, el proceso de depuración depende de la homologación de decisiones de la IA a partir de nociones clínicas con enorme variabilidad intra e interindividual (Figura 4). Para validar el papel de múltiples modelos de machine learning, el hospital Mash General Hospital diseñó un estudio que incluyó ~500 características clínicas y cerca de 20.000 variantes somáticas con potencial en la toma de decisiones. La comparación de la estructura de IA contra el Genomic Tumor Board demostró que el uso de una escala basada en regresión logística tuvo una tasa de falsos negativos y positivos del 1 y 2%, respectivamente, hallazgo que resultó comparable a las decisiones humanas (51).

Por otra parte, el volumen de literatura médica relacionado con genómica tumoral resulta inmanejable (~165.000/año). Esta dimensión podría llegar a ser manejable usando herramientas que contemplen el procesamiento natural del lenguaje para reducir el tiempo y esfuerzo necesarios para la recuperación de la información que permita la generación de nuevas hipótesis basadas en la mejor evidencia (Figura 5). La minería de datos también ha permitido el reconocimiento de entidades a través de proceso digitales de nominación 8Bio-NER) facilitando la extracción de referencias en medicina de precisión.
Desafortunadamente, no existe un estándar universal para denominar las variantes genéticas y existen múltiples formas de presentar el mismo evento en la literatura y en las bases de datos genómicas. Para consolidar el conocimiento sobre variantes patogénicas a partir de la literatura e integrarlas con los datos curados en recursos existentes como ClinVar y COSMIC, resulta esencial el uso correcto de la nomenclatura HGVS así como la introducción del número de identificación del SNP de referencia (RSID) (52). Recientemente, se han aplicado varios métodos de aprendizaje profundo al reconocimiento de entidades con nombre biomédico y sus respectivas alteraciones genéticas con una ganancia significativa en el rendimiento para integrar mejor las características multidimensionales y, al mismo tiempo, minimizar los requerimientos manuales (53).

Retos para la implementación y uso de la IA en el ámbito de la genómica
La evaluación de la precisión de la IA con relación a la genómica es fundamental para titular el funcionamiento de los sistemas solventando el precepto de la “caja negra”. En la genómica tiene especial importancia la clasificación de variantes y su relevancia clínica, la validación de la literatura y la clasificación de vectores que permiten el diseño de biomarcadores. A pesar de la abundancia de información clínica y cruda de datos genómicos, la protección individual de estos documentos por las pautas HIPPA y GDPR limita el acceso a su estudio y uso para la capacitación y evaluación de los sistemas de IA aplicables al diseño de planes personalizados de tratamiento. En adición, la reproducibilidad de los resultados experimentales incluidos en los estudios de IA sigue siendo un problema para la implementación en la practica clínica regular. Debido a que los algoritmos de aprendizaje suelen tener múltiples componentes ajustables, el rendimiento suele verse afectado por la sensibilidad de la escala y calidad de los datos de entrenamiento, la configuración empírica de los parámetros, y los procesos de inicialización y optimización. Muchas publicaciones no revelan los supuestos simplificadores o los detalles de implementación y, por lo tanto, dificultan la reproducción de los resultados. En adición, la mayoría de los estudios no comparte el código fuente.
Conclusión
Si bien la salud digital se ha vuelto esencial para brindar las mejores prácticas en el cuidado sanitario, plantea desafíos sin precedentes para los pacientes, investigadores y para la comunidad biomédica, en especial, cuando confluye con la complejidad de la medicina de precisión y los análisis multiómicos. Por el momento, la intersección entre la IA y la genómica semeja a gigantes entre los gigantes, recordando la respuesta que algún día diera Isaac Asimov a la pregunta sobre el científico más grande de la historia. Después, de quedarse unos segundos en silencio replicó entre dientes “La historia probablemente aún no lo ha visto, sin embargo, tengo dudas sobre a quien colocar en segundo lugar”. Entonces, Asimov consideraba que para este lugar ya había una dura liza entre Albert Einstein, Ernest Rutherford, Niels Borh, Louis Pasteur, Charles Darwin, Galileo Galilei, Arquímedes y algunos otros. Lo que sí tenía claro, era que, al menos hasta donde su visión alcanzó, el mayor talento había sido de Isaac Newton. La IA transformará la historiografía de la biología molecular aplicada, en especial, para patologías complejas como el cáncer, donde la fuente del análisis avanzado de datos ya lo ha hecho y lo seguirá haciendo. Nada ha sido más estimulante que tener la oportunidad de vivirlo, nada vale más que reconocer que “antes pensábamos que nuestro futuro estaba en las estrellas, ahora sabemos que está en nuestros genes” (James Watson), y la IA esta al servicio de la curiosidad para leerlos.
Glosario
Termino | Significado |
Red neuronal convolucional (Convolutional neural network) | Una red neuronal convolucional es un tipo de red neuronal artificial donde las neuronas corresponden a campos receptivos de una manera muy similar a las neuronas en la corteza visual primaria (V1) de un cerebro biológico. Estas, son aptas para poder aprender a clasificar todo tipo de datos que estén distribuidos de una forma continua a lo largo del mapa de entrada, y que a su vez sean estadísticamente similares en cualquier lugar del mismo mapa. Por esta razón, son especialmente eficaces para clasificar imágenes, por ejemplo, para su auto etiquetado. Sin embargo, las redes neuronales convolucionales también pueden ser aplicadas para la clasificación de series de tiempo o señales de audio utilizando convoluciones en 1D, así como para la clasificación de datos volumétricos usando convoluciones en 3D. |
Procesamiento natural del lenguaje (Natural language processing) | Campo de la IA que interacciona con la lingüística para facilitar la comunicación entre los sistemas computacionales y el lenguaje humano. Se ocupa de la formulación e investigación de mecanismos eficaces para establecer la comunicación entre personas y máquinas por medio del lenguaje natural. Regularmente incluye el análisis morfológico de las palabras y sus rasgos flexivos, el estudio sintáctico, semántico y pragmático del lenguaje. Además, permite la planeación, estructuración y generación de frases. |
Mutaciones crípticas | Genes mutados que están ocultos y tienen efectos inesperados en los rasgos que solo se revelan cuando se combinan con otras alteraciones. |
Transcripción | La transcripción es el primer paso de la expresión génica. Esta etapa consiste en copiar la secuencia de ADN para producir una molécula de ARN a través de las polimerasas encargadas de unir los nucleótidos para formar una cadena de ARN (usando el ADN como molde). La transcripción tiene tres etapas: iniciación, elongación y terminación. |
Scale-invariant feature transform (SIFT) | Algoritmo usado en visión artificial para extraer características relevantes de las imágenes que posteriormente pueden usarse en reconocimiento de objetos, detección de movimiento, estereopsis, registro de la imagen y otras tareas. |
PANTHER-PSEP | Sistema que estima la probabilidad de que un SNP que codifique un determinado SNP no sinónimo (cambio de aminoácidos) provoque un impacto funcional en la proteína. Calcula la cantidad de tiempo (en millones de años) que se ha conservado un aminoácido dado en el linaje que conduce a la proteína de interés. Cuanto mayor sea el tiempo de conservación, mayor será la probabilidad de impacto funcional. |
PolyPhen2 | PolyPhen-2 (Polymorphism Phenotyping v2) es una herramienta que predice el posible impacto de una sustitución de aminoácidos en la estructura y función de una proteína humana utilizando consideraciones físicas y comparativas sencillas. |
ClinVar | Archivo público con acceso gratuito a informes sobre las relaciones entre variantes genómicas y fenotipos humanos, con evidencia de apoyo. La base de datos incluye variantes de línea germinal y somáticas de cualquier tamaño, tipo y ubicación. |
COSMIC | Catálogo de mutaciones somáticas en cáncer. Recurso más grande y completo del mundo para explorar el impacto de las mutaciones somáticas en diversas neoplasias. |
OncoKB | Base de datos con algoritmos de conocimiento sobre oncología de precisión que contiene información sobre los efectos y las implicaciones del tratamiento de alteraciones genéticas específicas del cáncer. |
HGVS | Nomenclatura recomendada para la descripción de variantes génicas |
Vínculos relacionados | http |
SpliceAI | https://spliceailookup.broadinstitute.org/ |
DeepSEA | http://deepsea.princeton.edu/help/ https://humanbase.readthedocs.io/en/latest/deepsea.html |
ExPecto | https://hb.flatironinstitute.org/expecto/?tabId=1 |
Face2gene | Home – Face2Gene |
PANTHER-PSEP | http://www.pantherdb.org/tools/csnpScoreForm.jsp |
PolyPhen2 | http://genetics.bwh.harvard.edu/pph2/ |
ClinVar | https://www.ncbi.nlm.nih.gov/clinvar/ |
COSMIC | https://cancer.sanger.ac.uk/cosmic |
OncoKB | https://www.oncokb.org/ |
HGVS | https://www.hgvs.org/mutnomen/ |
Referencias
- Torkamani A, Andersen KG, Steinhubl SR, Topol EJ. High-definition medicine. Cell. 2017;170:828–43.
- Leung MKK, Xiong HY, Lee LJ, Frey BJ. Deep learning of the tissue-regulated splicing code. Bioinformatics. 2014;30:i121–9.
- Jaganathan K, Kyriazopoulou Panagiotopoulou S, McRae JF, Darbandi SF, Knowles D, Li YI, et al. Predicting splicing from primary sequence with deep learning. Cell. 2019;176:535–48.
- Quang D, Xie X. DanQ: a hybrid convolutional and recurrent deep neural network for quantifying the function of DNA sequences. Nucleic Acids Res. 2016;44:e107.
- Poplin R, Chang PC, Alexander D, Schwartz S, Colthurst T, Ku A, et al. A universal SNP and small-indel variant caller using deep neural networks. Nat Biotechnol. 2018;36:983–7.
- Wick RR, Judd LM, Holt KE. Performance of neural network basecalling tools for Oxford nanopore sequencing. Genome Biol. 2019;20:129.
- Luo R, Sedlazeck FJ, Lam TW, Schatz MC. A multi-task convolutional deep neural network for variant calling in single molecule sequencing. Nat Commun. 2019 Mar 1;10(1):998.
- Tang H, Thomas PD. Tools for predicting the functional impact of nonsynonymous genetic variation. Genetics. 2016;203:635–47.
- Quang D, Chen Y, Xie X. DANN: a deep learning approach for annotating the pathogenicity of genetic variants. Bioinformatics. 2015;31:761–3.
- Landrum MJ, Lee JM, Benson M, Brown GR, Chao C, Chitipiralla S, et al. ClinVar: improving access to variant interpretations and supporting evidence. Nucleic Acids Res. 2018;46:D1062–7.
- FDA approves stroke-detecting AI software. Nat Biotechnol. 2018;36:290.
- Zhou J, Troyanskaya OG. Predicting effects of noncoding variants with deep learning-based sequence model. Nat Methods. 2015;12:931–4.
- Zhou J, Park CY, Theesfeld CL, Wong AK, Yuan Y, Scheckel C, et al. Whole-genome deep-learning analysis identifies contribution of noncoding mutations to autism risk. Nat Genet. 2019;51:973–80.
- Zhou J, Theesfeld CL, Yao K, Chen KM, Wong AK, Troyanskaya OG. Deep learning sequence-based ab initio prediction of variant effects on expression and disease risk. Nat Genet. 2018;50:1171–9.
- Telenti A, Pierce LCT, Biggs WH, Di Iulio J, Wong EHM, Fabani MM, et al. Deep sequencing of 10,000 human genomes. Proc Natl Acad Sci U S A. 2016;113:11901–6.
- Erikson GA, Bodian DL, Rueda M, Molparia B, Scott ER, Scott-Van Zeeland AA, et al. Whole-genome sequencing of a healthy aging cohort. Cell. 2016;165:1002–11.
- Gurovich Y, Hanani Y, Bar O, Nadav G, Fleischer N, Gelbman D, et al. Identifying facial phenotypes of genetic disorders using deep learning. Nat Med. 2019;25:60–4.
- Lumaka A, Cosemans N, Lulebo Mampasi A, Mubungu G, Mvuama N, Lubala T, et al. Facial dysmorphism is influenced by ethnic background of the patient and of the evaluator. Clin Genet. 2017;92:166–71.
- Martin AR, Kanai M, Kamatani Y, Okada Y, Neale BM, Daly MJ. Clinical use of current polygenic risk scores may exacerbate health disparities. Nat Genet. 2019;51:584–91.
- Hsieh T-C, Mensah MA, Pantel JT, Aguilar D, Bar O, Bayat A, et al. PEDIA: prioritization of exome data by image analysis. Genet Med. 2019.
- Dolgin E. AI face-scanning app spots signs of rare genetic disorders. Nature. 2019.
- Mobadersany P, Yousefi S, Amgad M, Gutman DA, Barnholtz-Sloan JS, Velázquez Vega JE, et al. Predicting cancer outcomes from histology and genomics using convolutional networks. Proc Natl Acad Sci U S A. 2018;115:E2970–9.
- Clark MM, Hildreth A, Batalov S, Ding Y, Chowdhury S, Watkins K, et al. Diagnosis of genetic diseases in seriously ill children by rapid whole-genome sequencing and automated phenotyping and interpretation. Sci Transl Med. 2019;11:eaat6177.
- Lello L, Avery SG, Tellier L, Vazquez AI. de los Campos G, Hsu SDH. Accurate genomic prediction of human height. Genetics. 2018;210:477–97.
- Wang B, Mezlini AM, Demir F, et al. Similarity network fusion for aggregating data types on a genomic scale. Nat Methods. 2014 Mar; 11(3):333-7.
- Meng C, Zeleznik OA, Thallinger GG, et al. Dimension reduction techniques for the integrative analysis of multi-omics data. Brief Bioinform. 2016 Jul; 17(4):628-41.
- Bersanelli M, Mosca E, Remondini D, et al. Methods for the integration of multi-omics data: mathematical aspects. BMC Bioinformatics. 2016 Jan 20; 17 Suppl 2:15.
- Ibrahim R, Pasic M, Yousef GM. Omics for personalized medicine: defining the current we swim in. Expert Rev Mol Diagn. 2016 Jul;16(7):719-22.
- MacArthur DG, Manolio TA, Dimmock DP, et al. Guidelines for investigating causality of sequence variants in human disease. Nature. 2014 Apr 24; 508(7497):469-76.
- Tang H, Thomas PD. Tools for Predicting the Functional Impact of Nonsynonymous Genetic Variation. Genetics. 2016 Jun; 203(2):635-47.
- Richards S, Aziz N, Bale S, et al; ACMG Laboratory Quality Assurance Committee. Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology. Genet Med. 2015 May;17(5):405-24.
- Li MM, Datto M, Duncavage EJ, et al. Standards and Guidelines for the Interpretation and Reporting of Sequence Variants in Cancer: A Joint Consensus Recommendation of the Association for Molecular Pathology, American Society of Clinical Oncology, and College of American Pathologists. J Mol Diagn. 2017 Jan;19(1):4-23.
- Lindeman NI, Cagle PT, Aisner DL, et al. Updated Molecular Testing Guideline for the Selection of Lung Cancer Patients for Treatment With Targeted Tyrosine Kinase Inhibitors: Guideline From the College of American Pathologists, the International Association for the Study of Lung Cancer, and the Association for Molecular Pathology. J Mol Diagn. 2018 Mar;20(2):129-159. doi: 10.1016/j.jmoldx.2017.11.004. Epub 2018 Jan 23.
- Kundra R, Zhang H, Sheridan R, et al. OncoTree: A Cancer Classification System for Precision Oncology. JCO Clin Cancer Inform. 2021 Feb;5:221-230. doi: 10.1200/CCI.20.00108.
- Weinstein JN, Collisson EA, Mills GB, et al; Cancer Genome Atlas Research Network. The Cancer Genome Atlas Pan-Cancer analysis project. Nat Genet. 2013 Oct; 45(10):1113-20.
- Davis RJ, Gönen M, Margineantu DH, et al. Pan-cancer transcriptional signatures predictive of oncogenic mutations reveal that Fbw7 regulates cancer cell oxidative metabolism. Proc Natl Acad Sci U S A. 2018 May 22;115(21):5462-5467.
- Castro M, Pampana A, Alam A, et al. Combination chemotherapy versus temozolomide for patients with methylated MGMT (m-MGMT) glioblastoma: results of computational biological modeling to predict the magnitude of treatment benefit. J Neurooncol. 2021 Jul;153(3):393-402. doi: 10.1007/s11060-021-03780-0.
- Zhang Z, He T, Huang L, et al. Immune gene prognostic signature for disease free survival of gastric cancer: Translational research of an artificial intelligence survival predictive system. Comput Struct Biotechnol J. 2021 Apr 12;19:2329-2346. doi: 10.1016/j.csbj.2021.04.025.
- Nosi V, Luca A, Milan M, et al. MET Exon 14 Skipping: A Case Study for the Detection of Genetic Variants in Cancer Driver Genes by Deep Learning. Int J Mol Sci. 2021 Apr 19;22(8):4217. doi: 10.3390/ijms22084217.
- Chakraborty D, Ivan C, Amero P, Ket al. Explainable Artificial Intelligence Reveals Novel Insight into Tumor Microenvironment Conditions Linked with Better Prognosis in Patients with Breast Cancer. Cancers (Basel). 2021 Jul 9;13(14):3450. doi: 10.3390/cancers13143450.
- Ding J, Bashashati A, Roth A, et al. Feature-based classifiers for somatic mutation detection in tumour-normal paired sequencing data. Bioinformatics. 2012 Jan 15; 28(2):167-75.
- Hao Y, Xuei X, Li L, et al. RareVar: A Framework for Detecting Low-Frequency Single-Nucleotide Variants. J Comput Biol. 2017 Jul;24(7):637-646.
- Spinella JF, Mehanna P, Vidal R, et al. SNooPer: a machine learning-based method for somatic variant identification from low-pass next-generation sequencing. MC Genomics. 2016 Nov 14;17(1):912.
- ST et al (2018) Deep learning mutation prediction enables early-stage lung cancer detection in liquid biopsy. IN: ICLR 2018 conference, Vancouver.
- Wood DE, White JR, Georgiadis A, et al. A machine learning approach for somatic mutation discovery. Sci Transl Med. 2018 Sep 5;10(457):141.
- Antaki D, Brandler WM, Sebat J. SV2: accurate structural variation genotyping and de novo mutation detection from whole genomes. Bioinformatics. 2018 May 15; 34(10):1774-1777.
- Onsongo G, Baughn LB, Bower M, et al. CNV-RF Is a Random Forest-Based Copy Number Variation Detection Method Using Next-Generation Sequencing. J Mol Diagn. 2016 Nov; 18(6):872-881.
- Going Deeper with Convolutions (2014) arXiv:1409.4842v1.
- Caravagna G, Giarratano Y, Ramazzotti D, et al. Detecting repeated cancer evolution from multi-region tumor sequencing data. Nat Methods. 2018 Sep;15(9):707-714.
- Qi H, Zhang H, Zhao Y, et al. MVP predicts the pathogenicity of missense variants by deep learning. Nat Commun. 2021 Jan 21;12(1):510. doi: 10.1038/s41467-020-20847-0.
- Zomnir MG, Lipkin L, Pacula M, et al. Artificial Intelligence Approach for Variant Reporting. JCO Clin Cancer Inform. 2018;2:CCI.16.00079. doi: 10.1200/CCI.16.00079. Epub 2018 Mar 22.
- Krallinger M, Vazquez M, Leitner F, et al. The Protein-Protein Interaction tasks of BioCreative III: classification/ranking of articles and linking bio-ontology concepts to full text. BMC Bioinformatics. 2011 Oct 3;12 Suppl 8(Suppl 8):S3. doi: 10.1186/1471-2105-12-S8-S3.
- Habibi M, Weber L, Neves M, et al. Deep learning with word embeddings improves biomedical named entity recognition. Bioinformatics. 2017 Jul 15;33(14):i37-i48.