Quan era jove, un dels discs de llarga duració (LP) que més èxit va tenir era un àlbum conceptual de Pink Floyd titulat “The Dark side of the moon”, és a dir, el costat ocult o fosc de la lluna. És un àlbum amb diversos temes que cal escoltar en un moment de tranquil·litat i llum tènue, i el títol sembla metafòric, ja que en moltes cançons parla del costat fosc de la vida diària dels humans, la que ens constreny i ens priva de llibertat.

També fent una analogia clara a la lluna, els científics diuen que el genoma humà té un costat fosc, en el sentit que hi ha seqüències la funció de les quals no sabem exactament, que no ens sembla evident ni fàcil d’interpretar i, per tant, ens sembla oculta o amagada. El cert és que com a bons enginyers que som, els humans pensem que a la natura tot el que existeix ha de ser òptim i que la selecció natural ha de cercar la perfecció estètica o l’optimització de les funcions, quan, en realitat, la base de la selecció natural és la supervivència dels organismes. Quan pensem en un manual d’instruccions, com ara el nostre DNA, tenim la tendència a assumir que el que és més rellevant és la funció executiva, aquelles instruccions que codifiquen per a proteïnes, que tenen una funció molt clara en el nostre cos. És cert que el codi genètic (que uneix el llenguatge del DNA amb la traducció a proteïnes) és molt atractiu i plaent al nostre intel·lecte humà, qui no ha jugat mai a tenir un codi secret que només uns pocs iniciats poden entendre? Però cal recordar que mai no n’hi ha prou amb una instrucció en si mateixa: qualsevol instrucció, també els gens que són instruccions genètiques, per a ser realment efectiva, necessita context i control: necessita ser llegida quan correspon, és el que els genetistes anomenem regulació. I la regulació dels gens és molt complexa i funciona a nivells molt diferents, perquè d’aquesta regulació depèn quina proteïna o proteïnes es produeixen a partir d’un mateix gen (si un gen fos el capítol d’una novel·la, es poden “llegir” paràgrafs diferents d’un mateix capítol), quan i on es produeix aquella proteïna (és a dir, en quin moment del desenvolupament o en quin tipus de cèl·lula, si és una neurona o una cèl·lula muscular), com respon i s’adapta la producció de proteïna a necessitats específiques (per exemple, quan l’organisme està sota estrès o està rebent certs tipus d’hormones o senyals externes…). Tota aquesta regulació també és informació genètica, però està continguda en el que anomenem el “DNA fosc”, que es troba en el 98% del genoma que no codifica per a proteïnes. Tot i que tenim coneixements de com funcionen alguns elements reguladors, encara no tenim tot el codi regulatori a causa de la complexitat en la seva relació i interacció. Tenim un mapa de la regulació gènica incomplet i difícil d’interpretar.

Justament aquesta setmana, ha sortit publicat un article a la revista Nature presentant l’anàlisi del nostre genoma segons un nou programa d’intel·ligència artificial, AlphaGenome, que fa servir aprenentatge profund (deep learning), desenvolupat per Google. AlphaGenome és capaç d’analitzar seqüències del genoma humà d’un milió de “lletres” o bases, i interpretar quin és l’impacte d’una sola variant, un sol canvi, d’un nucleòtid en la regulació del gen on s’ha trobat. Per fer-nos idea a escala, si agafem un llibre amb un milió de lletres (equivalent a 500 pàgines, amb unes 2.000 lletres per pàgina), aquest programa d’IA és capaç de predir quin serà l’impacte del canvi d’una única “lletra” en el significat d’aquest llibre genètic. És reament impressionant, perquè no fa la seva predicció sobre la seqüència codificant per a proteïnes, que fa més de 50 anys que coneixem bé, sinó que ha sigut entrenat per a comprendre la rellevància d’aquests canvis en la “cara fosca” i oculta del genoma, les seqüències reguladores.

El genoma humà té un costat fosc, en el sentit que hi ha seqüències la funció de les quals no sabem exactament

Evidentment, hi ha altres programes que intenten fer aquesta anàlisi, però no saben llegir i analitzar un milió de “lletres” a la vegada. I aquesta escala és important, perquè les seqüències reguladores dels gens poden estar a una certa distància, i parlar d’un milió de bases o lletres, perfectament entra dins de les distàncies que ocupen un gen i uns pocs gens propers, distàncies raonables per contenir seqüències reguladores del gen.

Us preguntareu, i per què li donem tanta importància a un canvi petit, una “lletra” entre un milió? Doncs perquè moltes malalties minoritàries o rares, presenten canvis d’una o poques “lletres” en la seqüència del gen, i quan aquestes variants genètiques cauen en la regió del “DNA fosc”, no sabem interpretar-les, per això les anomenem “variants de significat incert”, en espera que algú trobi prou indicis, a favor o en contra, de la seva patogenicitat, i les classifiqui adientment. Aquest programa, de fet, ha sigut dissenyat per ser eficient en l’anàlisi sobre un únic gen i tindrà un gran impacte en el rendiment del diagnòstic genètic de molts casos que romanien sense resolució. El seu grau d’encert és alt, i permet fer simulacions in silico (amb l’ordinador), s’estalviaran molts assajos al laboratori, per exemple, per a dissenyar noves teràpies, més selectives i efectives, sobre mutacions específiques identificades en el genoma dels pacients.

Només és un primer pas, queda molt per esbrinar del DNA fosc regulatori, per exemple, l’impacte de les variants genètiques en teixits poc estudiats o molt diferents de la resta, com ara neurones de diferents zones del cervell, sistema nerviós i retina; o la relació d’aquestes variants amb l’epigenètica causada per estímuls externs, ja que no tot és genètica, també hem de tenir en compte l’ambient, que és canviant i dinàmic. A més, les malalties i característiques complexes no depenen d’un únic gen, sinó de molts, i les variants genètiques poden interaccionar entre elles de manera sinèrgica o antagònica. No en sabem prou encara per a entrenar eficientment la IA per resoldre aquests problemes, però segur que aquests són els reptes del futur, perquè no ho oblidem, hi haurà un dia en què la medicina de precisió serà personalitzada, se seqüenciarà el nostre genoma i a partir de les variants genètiques heretades o adquirides, es podrà inferir quines són les nostres característiques, i de quina manera emmalaltim o reaccionem als medicaments. I la IA serà una eina imprescindible en aquesta nova aventura de coneixement de la nostra persona, incloent-hi la interpretació del “costat fosc” del nostre DNA.