Google identificó a millones de mutaciones en las proteínas capaces de generar enfermedades

La estructura de proteínas predicha por el sistema de inteligencia artificial AlphaFold. La ciencia solo había clasificado el 2% de las variaciones detectadas hasta hoy gracias a la inteligencia artificial de DeepMind.

Es el santo grial de la medicina moderna: identificar las alteraciones en el genoma que provocan la aparición de enfermedades de origen genético. La tarea no es fácil, hay miles de mutaciones en cada persona respecto de la información genética que heredó de sus padres. La mayoría son benignas, pero hay un porcentaje que pueden ser patogénicas. Ahora, investigadores de Google DeepMind, la empresa de inteligencia artificial de Alphabet, han catalogado 71 millones de estas mutaciones. El programa también pudo clasificarlas, encontrando que un tercio podría modificar el funcionamiento de las proteínas, provocando serias patologías.

El ADN contiene las instrucciones para el desarrollo de todo ser vivo. Este libro contiene cada una de sus recetas para crear células, órganos y funciones en forma de secuencias de sus componentes básicos. Estos componentes básicos, los ladrillos de la vida, son las proteínas. Están formadas por series de aminoácidos, a veces centenares, que a su vez, están formados por tríos de nucleótidos, las letras del abecedario genético. Cuando uno de estos nucleótidos es reemplazado por otro en un tipo de mutación, se denomina variante contrasentido. En su mayoría, estas variantes no afectan a la función de la proteína. Pero en otros casos, la mutación es catastrófica, degenerando en patologías con la esclerosis lateral amiotrófica (ELA) de base genética o la anemia de células falciformes.

Hasta ahora, se habían identificado unos 4 millones de estas variantes contrasentido (missense variants, en inglés) en las 19.233 proteínas que forman cada ser humano. Pero solo en el 2% de casos habían sido anotadas, es decir, cuando se sabe si son benignas (la mayoría) o si pueden ser fuente de enfermedades. Ahora, la inteligencia artificial (IA) ha multiplicado por 18 el número de variantes conocidas y clasificado la mayoría de ellas por potencial impacto en el funcionamiento de las proteínas.

Los autores de este logro, publicado en la prestigiosa revista científica Science, son científicos de DeepMind. Es el mismo grupo que desarrolló hace unos años AlphaFold, un programa de IA capaz de predecir la estructura de la práctica totalidad de las proteínas y considerado uno de los mayores avances de la biología computacional. Lo que han hecho ahora ha sido rediseñarlo y reorientarlo para detectar mutaciones contrasentido en la expresión de las proteínas. Además, en su entrenamiento, la nueva herramienta, AlphaMissense, clasifica con elevada probabilidad el impacto que esta variante puede tener en la función de la proteína.

AlphaMissense

El investigador de Deep Mind Jung Chen, primer autor del estudio, explica lo que hace AlphaMissense: “Sabíamos que AlphaFold era un modelo muy bueno para predecir la estructura tridimensional de las proteínas partiendo de una secuencia masiva. También sabíamos que esta estructura en 3D de las proteínas es muy importante para su función, básicamente revelando cuál es”, explica Chen. Si de la estructura se puede deducir su función, cualquier alteración en esa estructura podría ser fruto de una mutación. Y otra pieza fundamental es la capacidad de AlphaMissense de aprender de las limitaciones evolutivas de las secuencias relacionadas. Es decir, la evolución ha moldeado cómo puede ser la estructura de una proteína y cómo no debería ser si no se quieren problemas. Para este mejorar su conocimiento de este aspecto, el sistema fue entrenado con las estructuras de proteínas humanas y de primates. “Mediante el entrenamiento, ve millones de secuencias de proteínas y aprende cómo es una secuencia de proteínas normal. Y cuando se nos da una con una mutación, puede decirnos si mala o no”, añade

Cheng acaba haciendo una comparación: “Esto es muy similar al lenguaje humano. Si sustituimos una palabra de una frase en inglés, una persona que esté familiarizada con el idioma puede ver inmediatamente si esta sustitución de palabras cambiará el significado de la oración o no”. Su AlphaMissense fue capaz de clasificar el 89% de los 71 millones de variantes contrasentido que identificó. De ellas, el 57% eran probablemente benignas y un tercio como probablemente patogénicas. Del 11% restante la IA no sabría su impacto. “El modelo asigna una puntuación entre cero y uno a cada una de las variantes e indica la probabilidad de que la variante sea patógena. Por patógeno, queremos decir que nuestra variante patogénica tiene más probabilidades de estar asociada con una enfermedad o causarla”, detalla el científico.

Las aclaraciones de Cheng destacan tanto la fortaleza de AlphaMissense, su altísima capacidad para clasificar las variantes, como una de sus debilidades: los porcentajes se refieren a probabilidades. Hasta la era de los potentes ordenadores y la IA, caracterizar la estructura de una proteína, o de sus mutaciones, era un trabajo titánico. Antes de la llegada de estas tecnologías, se había conseguido determinar la estructura de unas 200.000 proteínas, una labor que llevó 60 años y la participación de miles de científicos. Para hacerlo se necesitaba muchas horas de laboratorio o el uso de aceleradores de partículas. Pero eran observaciones reales, de la estructura real de una proteína real. En el caso de la biología computacional, son proteínas y variantes virtuales, que después hay que confirmar. En el caso de AlphaMissense, la precisión lograda para sus cálculos es del 90%.

Comprender la enfermedad

En cuanto a las posibles aplicaciones, Žiga Avsec, también de DeepMind y coautor sénior del estudio, dijo en una conferencia online que, “el primer paso para encontrar tratamientos es tratar de comprender bien la enfermedad y tanto para las enfermedades complejas como para las raras, eso significa encontrar genes asociados con ellas”. Para Avsec, herramientas como AlphaMissense, “pueden ayudarnos a intentarlo, a poder identificar mejor las variantes, ayudarnos a descubrir genes potencialmente nuevos; al comprender mejor la genética, podremos tener opiniones más sólidas sobre algunos genes de los que antes quizá no estábamos seguros si estaban relacionados con la enfermedad”. “Esa es la idea general, a través de una mejor genética, encontrar nuevos genes, obteniendo un poder estadístico adicional para detectar nuevas asociaciones, pero eso directamente no conducirá a nuevos medicamentos como tal”, añadió.

Hace unos días, se publicó el análisis de los 200 millones de proteínas descubiertas por AlphaFold el año pasado. En ese análisis clave participó el bioinformático español, Íñigo Barrio. “AlphaFold cambió el mundo”, dice Barrio, que no es tan entusiasta con AlphaMissense. “Es relevante, es una nueva forma de evaluar variantes y podría servir para monitorear enfermedades raras. Pero ya hay otros software de predicción”. Barrio destaca también una de las limitaciones de esta inteligencia artificial. AlphaMissense cataloga variantes contrasentido de forma individual, pero muchas de las patologías con base genética “son el producto de la combinación de varias de estas mutaciones”, recuerda.

Una opinión similar expresa el biólogo José Antonio Márquez, que dirige la Plataforma de Cristalografía del Laboratorio Europeo de Biología Molecular: “Es una de las aplicaciones del método [AlphaFold], quizás no es tan relevante a nivel científico, pero sí en el sentido de empezar a transferir un descubrimiento en posibles aplicaciones”. Entre esas aplicaciones, Márquez destaca su uso para acelerar “la investigación en enfermedades genéticas y particularmente enfermedades raras, puesto que ayuda a generar hipótesis sobre el mecanismo que provoca la enfermedad”.

Miguel Ángel Criado: Es cofundador de Materia y escribe de tecnología, inteligencia artificial, cambio climático, antropología… desde 2014. Antes pasó por Público, Cuarto Poder y El Mundo. Es licenciado en CC. Políticas y Sociología.