Ricardo A. Peña Silva M.D. PhD.
Profesor Asociado
Facultad de Medicina
Universidad de los Andes
@DrRicardoPena
Imagina por un momento que llegas a tu oficina y se te asigna una tarea particular. Hoy debes organizar cientos de fichas de “lego” que están sobre una mesa (Figura 1). Las fichas deben ser organizadas de manera que forman un objeto particular, que no conoces, pero que tiene función particular. Realizar esta tarea es prácticamente imposible dado el número posible de combinaciones que podrían existir entre las diversas fichas y las formas de ensamblarlas.

Simplifiquemos entonces la tarea. En lugar de cientos de fichas, vas a recibir una serpiente de Rubik (un juguete armado de prismas triangulares, unidos por un mecanismo de resorte que permite que cada parte pueda rotar, y que puede adoptar diferentes conformaciones – Figura 2). De nuevo, vas a jugar con la serpiente hasta encontrar una forma tridimensional, que cumple una función particular pero no sabes cuál es. A pesar de que está tarea parecería ser un poco más sencilla, sigue siendo casi imposible de concretar. Una serpiente de Rubik normal tiene 24 prismas conectados entre sí, y existen más de 6 billones de estructuras que se podrían lograr moviendo cada una de las piezas de la serpiente [1].

Pues bien, esta tarea es similar a la que han tenido los biólogos y biofísicos para tratar de descifrar cuál es la posible estructura tridimensional que puede adoptar una proteína a partir de la secuencia aminoácidos con la que se forma. Nuestro organismo está compuesto por proteínas, o por metabolitos que son el resultado de la acción de proteínas. Entender la relación entre la estructura y la función de las proteínas es un fenómeno crítico para entender la organización de la vida, y el mantenimiento de la salud. (recordemos que la mayoría de fármacos que utilizamos en el día a día, actúan modulando la función de alguna proteína) .
Para entender la magnitud y la importancia de entender la estructura tridimensional de una proteína es necesario que recordemos los principios del dogma de la biología celular. La información de todas las funciones y estructuras de nuestro organismo están almacenadas en nuestro ADN. Sin embargo, para que esa información sea útil tiene que ser transportada fuera del núcleo para modular procesos en el citoplasma. Para lograrlo se genera una copia transitoria de la información del ADN, en forma de ARNs. Existen varios tipos de ARN y uno de los más conocidos es el ARN mensajero que actúa como un intermediario que transporta la información desde los genes en el ADN hasta los ribosomas en el citoplasma. Los ribosomas interpretan la secuencia de nucleótidos del ARN, codificada en tripletes de nucleótidos que llamamos codones, para ensamblar una cadena de aminoácidos. El ribosoma lee cada codón, y ensambla uno a uno cada aminoácido, en una cadena peptídica a la que llamamos proteína. A medida que la cadena va creciendo, cada vez que se adiciona un nuevo aminoácido, la estructura deja de ser lineal, y adopta una con formación tridimensional, de acuerdo con las relaciones que se establecen entre los aminoácidos. La función de la proteína está determinada por su estructura en las 3 dimensiones. En biología definimos la “proteostasis” como la serie de procesos que mantienen el equilibrio dinámico de la estructura y función de las proteínas. Alteraciones de la proteostasis están asociadas a trastornos como la enfermedad de Alzheimer y la enfermedad de Parkinson, y al envejecimiento [2].
Por décadas ha sido un reto tratar de predecir cuál es la estructura que tomará una proteína a partir de la secuencia aminoácidos. Incluso desde 1994 se viene desarrollando la competencia CASP (Crítical Assesment of Structure Prediction), un reto que reúne a cientos de biólogos y biofísicos que desarrollan modelos que predicen la estructura final de una proteína, a partir de su secuencia primaria de aminoácidos [3]. La estructura generada por cada modelo se compara contra la estructura real de proteínas ejemplo y que han sido obtenidas por medio de métodos como la difracción de rayos X. La calidad de la predicción se evalúa en unidades GDT (Global Distance Test), que compara qué tan lejos está la posición de un aminoácido en el modelo calculado y en la estructura real (un valor GDT de 100 significaría que la estructura del modelo y la estructura real son idénticas). Aunque desde los primeros retos la eficacia de las predicciones ha venido aumentando, hasta el año 2016 en general las predicciones más precisas sólo alcanzaban alrededor de 50 GDT (un valor muy bajo para que sea de utilidad biológica).
La historia de CASP cambió en 2018 cuando DeepMind, una empresa subsidiaria de Google, compitió utilizando un sistema basado en inteligencia artificial, para el caso en redes neuronales profundas, con el propósito específico de predecir la estructura de las proteínas. El nombre de este algoritmo es AlphaFold. En su primera aparición Alphafold alcanzó predicciones cercanas a 60 GDTs, un valor muy superior al de cualquiera de los otros modelos, pero todavía debajo de un nivel ideal de relevancia biológica.
Sin embargo, en 2020 DeepMind causó una gran conmoción en la comunidad científica [4]. En la siguiente iteración de su algoritmo, AlphaFold 2, alcanzó valores de GDTs cercanos a 90 GDT (un valor muy alto y que se puede considerar como bastante confiable para predecir la estructura de una proteína). Ningún otro modelo se acerca a los resultados alcanzados hoy por AlphaFold2.

[6]
.
En términos sencillos lo que hace AlphaFold2 es tomar información de las secuencias de aminoácidos para miles de proteínas desde el “protein data bank” [7], y las compara con estructuras conocidas que han sido determinadas por técnicas de laboratorio. Luego el algoritmo reconoce patrones y relaciones entre las posiciones en que se ubican los aminoácidos de acuerdo con su posición en la cadena peptídica. A partir de esta información se genera una matriz de datos que calcula la probabilidad de que dos aminoácidos puedan estar cerca en una proteína. Más adelante AlphaFold2, también involucra un mecanismo de inteligencia artificial basado en atención (esto es similar a sistemas como los transformers y que han revolucionado otros campos como la generación de imágenes digitales en sistemas como Dall E 2 [8]). La combinación de estas técnicas avanzadas y novedosas de inteligencia artificial permite que el sistema pruebe de manera repetida múltiples posibles estructuras, y evalúe cuál es la conformación tridimensional más probable que adoptará una cadena de aminoácidos. El sistema continuamente reevalúa el resultado y prueba nuevas condiciones con el objetivo de mejorar el resultado final. Esta combinación de procesos es lo que está detrás de la gran efectividad de AlphaFold2 para predecir la estructura de proteínas [9].
En el pasado predecir la estructura de una proteína utilizando técnicas como la cristalografía de rayos X podía tomar meses e incluso años. Además, el ambiente en que están inmersas algunas proteínas dificulta su cristalización. La magnitud del reto era tal que algunos investigadores han recibido el premio nobel [10] por el trabajo que durante años realizaron para determinar la estructura de proteínas tan importantes como los receptores acoplados a proteínas G, que son el principal blanco de la mayor parte de fármacos que utilizamos en la actualidad (Robert J. Lefkowitz y Brian K. Kobilka en el año 2012). Otros investigadores recibieron el premio nobel por su trabajo en el desarrollo de técnicas como la microscopía crioelectrónica para determinar con gran resolución la estructura de proteínas (Jacques Dubochet, Joachim Frank y Richard Henderson en el año 2018).
Este contexto nos da una idea de la importancia de AlphaFold 2. El uso de técnicas de inteligencia artificial para la resolución de la estructura de las proteínas puede ahorrar años de trabajo a equipos de investigación, y además puede iluminar la interpretación de los datos recolectados por técnicas tradicionales como la difracción de rayos X.
Recordemos además que en las células muchas proteínas no actúan solas, sino que una función biológica puede estar determinada por el trabajo de un complejo multi-proteico. Esto quiere decir muchas proteínas pueden agruparse, en una conformación particular, con el objetivo de cumplir con una función. Tal vez uno de los complejos más difíciles de caracterizar ha sido el poro nuclear, una estructura compuesta de más de 1000 proteínas que se unen para formar un canal por donde ingresan y salen cosas desde el núcleo. Alphafold2 está ayudándonos a entender la estructura de muchas de las subunidades que componen el poro y además cómo podrían interactuar entre ellas [9].
Si bien Alphafold2 está revolucionando la biología celular, como cualquier herramienta al alcance del hombre tiene limitaciones. Alphafold2 es entrenado con estructuras de proteínas “normales”. Por lo tanto, AlphaFold2 tiene limitaciones en el momento de predecir el impacto de una variante genética, que puede cambiar un aminoácido y generar una conformación atípica. AlphaFold2 tampoco puede predecir las diferentes conformaciones que puede adoptar una proteína. La estructura del algoritmo busca encontrar la “mejor” conformación, por lo tanto, puede no ser útil para estudiar proteínas que pueden adoptar diferentes conformaciones ante diferentes contextos biológicos. De forma similar, AlphaFold2 no es adecuado para evaluar el cambio de conformación que puede estar asociado a la interacción entre un fármaco y una proteína, dado que la información de entrenamiento del algoritmo no incluye la presencia de fármacos. Equipos de desarrollo en DeepMind y en múltiples instituciones académicas están trabajando para optimizar el algoritmo o crear otras versiones que puedan ayudar a sobrepasar las limitaciones actuales [9].
En resumen, la biología se caracteriza por procesos e interacciones complejas entre biomoléculas que modulan la homeostasis de un organismo. La inteligencia artificial nos está permitiendo comprender mejor el impacto de algunas de estas interacciones. Un claro ejemplo del impacto de la inteligencia artificial en la biología es el alto nivel de predicción de la estructura tridimensional de una proteína alcanzado por AlphaFold2. Seguramente los próximos años veremos la aparición de nuevos sistemas que podrían ayudarnos a entender la complejidad del metabolismo celular, las vías de señalización, y podrían ayudarnos a encontrar soluciones para preguntas como ¿cuál es la razón para los límites biológicos del crecimiento de un órgano? o ¿qué factores están relacionados al envejecimiento? Es crítico como como actores del sistema de salud aprendamos más acerca de los fundamentos de biología celular y las aplicaciones de la inteligencia artificial en biomedicina.
Nota:
Si desean ver una imagen de AlphaFold2 en acción los invito a seguir a Sergey Ovchinnikov en twitter (@sokrypton) y consultar el siguiente enlace, que muestra una sencilla animación de cómo la predicción de una estructura de una proteína evoluciona a lo largo del tiempo: https://twitter.com/sokrypton/status/1514227029482385408
Para aquellos interesados en probar el sistema, el código para Alphafold 2 está disponible en el siguiente enlace de GitHub: https://github.com/deepmind/alphafold
Bibliografía
[1] | «Wikipedia,» [En línea]. Available: https://en.wikipedia.org/wiki/Rubik%27s_Snake. |
[2] | K. P. H. F. U. Hipp Mark S, «The proteostasis network and its decline in ageing,» nature reviews molecular cell biology, pp. 421-435, 2019. |
[3] | «Protein Structure Prediction Center,» [En línea]. Available: https://predictioncenter.org. |
[4] | C. Ewen, «‘It will change everything’: DeepMind’s AI makes gigantic leap in solving protein structures,» nature, 2020. |
[5] | J. Jumper, «Highly accurate protein structure prediction with AlphaFold,» nature, 2021. |
[6] | M. Varadi, «AlphaFold Protein Structure Database: massively expanding the structural coverage of protein-sequence space with high-accuracy models,» Nucleic Acids Research, 2021. |
[7] | «Protein Data Bank,» [En línea]. Available: http://www.wwpdb.org. |
[8] | OpenAI, «Dall E 2,» [En línea]. Available: https://openai.com/dall-e-2/. |
[9] | C. Ewen, «What’s next for AlphaFold and the AI protein-folding revolution,» nature, 2022. |
[10] | The Nobel Prize, «The Nobel Prize,» [En línea]. Available: https://www.nobelprize.org/prizes/lists/all-nobel-prizes-in-chemistry/. |