Cuando era joven, uno de los discos de larga duración (LP) que más éxito tuvo era un álbum conceptual de Pink Floyd titulado “The Dark side of the moon”, es decir, el lado oculto u oscuro de la luna. Es un álbum con varios temas que hay que escuchar en un momento de tranquilidad y luz tenue, y el título parece metafórico, ya que en muchas canciones habla del lado oscuro de la vida diaria de los humanos, la que nos constriñe y nos priva de libertad.
También haciendo una analogía clara con la luna, los científicos dicen que el genoma humano tiene un lado oscuro, en el sentido de que existen secuencias cuya función no sabemos exactamente, que no nos parece evidente ni fácil de interpretar y, por lo tanto, nos parece oculta o escondida. Lo cierto es que como buenos ingenieros que somos, los humanos pensamos que en la naturaleza todo lo que existe debe ser óptimo y que la selección natural debe buscar la perfección estética o la optimización de las funciones, cuando, en realidad, la base de la selección natural es la supervivencia de los organismos. Cuando pensamos en un manual de instrucciones, como nuestro ADN, tenemos la tendencia a asumir que lo más relevante es la función ejecutiva, aquellas instrucciones que codifican para proteínas, que tienen una función muy clara en nuestro cuerpo. Es cierto que el código genético (que une el lenguaje del ADN con la traducción a proteínas) es muy atractivo y placentero para nuestro intelecto humano, ¿quién no ha jugado nunca a tener un código secreto que solo unos pocos iniciados pueden entender? Pero hay que recordar que nunca es suficiente una instrucción en sí misma: cualquier instrucción, también los genes que son instrucciones genéticas, para ser realmente efectiva, necesita contexto y control: necesita ser leída cuando corresponde, es lo que los genetistas llamamos regulación. Y la regulación de los genes es muy compleja y funciona a niveles muy distintos, porque de esta regulación depende qué proteína o proteínas se producen a partir de un mismo gen (si un gen fuera el capítulo de una novela, se pueden "leer" párrafos distintos de un mismo capítulo), cuándo y dónde se produce esa proteína (es decir, en qué momento del desarrollo o en qué tipo de célula, si es una neurona o una célula muscular), cómo responde y se adapta la producción de proteína a necesidades específicas (por ejemplo, cuando el organismo está bajo estrés o está recibiendo ciertos tipos de hormonas o señales externas…). Toda esta regulación también es información genética, pero está contenida en lo que llamamos el "ADN oscuro", que se encuentra en el 98% del genoma que no codifica para proteínas. Aunque tenemos conocimientos de cómo funcionan algunos elementos reguladores, todavía no tenemos todo el código regulatorio debido a la complejidad en su relación e interacción. Tenemos un mapa de la regulación génica incompleto y difícil de interpretar.
Precisamente esta semana, ha salido publicado un artículo en la revista Nature presentando el análisis de nuestro genoma según un nuevo programa de inteligencia artificial, AlphaGenome, que utiliza aprendizaje profundo (deep learning), desarrollado por Google. AlphaGenome es capaz de analizar secuencias del genoma humano de un millón de “letras” o bases, e interpretar cuál es el impacto de una sola variante, un solo cambio, de un nucleótido en la regulación del gen donde se ha encontrado. Para hacernos una idea a escala, si cogemos un libro con un millón de letras (equivalente a 500 páginas, con unas 2.000 letras por página), este programa de IA es capaz de predecir cuál será el impacto del cambio de una única “letra” en el significado de este libro genético. Es realmente impresionante, porque no hace su predicción sobre la secuencia codificante para proteínas, que hace más de 50 años que conocemos bien, sino que ha sido entrenado para comprender la relevancia de estos cambios en la “cara oscura” y oculta del genoma, las secuencias reguladoras.
El genoma humano tiene un lado oscuro, en el sentido de que existen secuencias cuya función no sabemos exactamente
Evidentemente, existen otros programas que intentan hacer este análisis, pero no saben leer y analizar un millón de “letras” a la vez. Y esta escala es importante, porque las secuencias reguladoras de los genes pueden estar a una cierta distancia, y hablar de un millón de bases o letras, perfectamente entra dentro de las distancias que ocupan un gen y unos pocos genes cercanos, distancias razonables para contener secuencias reguladoras del gen.
Se preguntarán, ¿y por qué le damos tanta importancia a un cambio pequeño, una "letra" entre un millón? Pues porque muchas enfermedades minoritarias o raras, presentan cambios de una o pocas "letras" en la secuencia del gen, y cuando estas variantes genéticas caen en la región del "ADN oscuro", no sabemos interpretarlas, por eso las llamamos "variantes de significado incierto", en espera de que alguien encuentre suficientes evidencias, a favor o en contra, de su patogenicidad, y las clasifique adecuadamente. Este programa, de hecho, ha sido diseñado para ser eficiente en el análisis sobre un único gen y tendrá un gran impacto en el rendimiento del diagnóstico genético de muchos casos que permanecían sin resolución. Su grado de acierto es alto, y permite hacer simulaciones in silico (con el ordenador), se ahorrarán muchos ensayos en el laboratorio, por ejemplo, para diseñar nuevas terapias, más selectivas y efectivas, sobre mutaciones específicas identificadas en el genoma de los pacientes.
Solo es un primer paso, queda mucho por averiguar del ADN oscuro regulatorio, por ejemplo, el impacto de las variantes genéticas en tejidos poco estudiados o muy distintos al resto, como neuronas de distintas zonas del cerebro, sistema nervioso y retina; o la relación de estas variantes con la epigenética causada por estímulos externos, ya que no todo es genética, también debemos tener en cuenta el ambiente, que es cambiante y dinámico. Además, las enfermedades y características complejas no dependen de un único gen, sino de muchos, y las variantes genéticas pueden interaccionar entre ellas de forma sinérgica o antagónica. Todavía no sabemos bastante como para entrenar de forma eficiente a la IA para resolver estos problemas, pero seguro que estos son los retos del futuro, porque no lo olvidemos, habrá un día en el que la medicina de precisión será personalizada, se secuenciará nuestro genoma y a partir de las variantes genéticas heredadas o adquiridas, se podrá inferir cuáles son nuestras características, y de qué manera enfermamos o reaccionamos a los medicamentos. Y la IA será una herramienta imprescindible en esta nueva aventura de conocimiento de nuestra persona, incluyendo la interpretación del “lado oscuro” de nuestro ADN.