Evo 2 és un model d’intel·ligència artificial de codi obert orientat a l’àmbit de la biologia que ha estat entrenat amb informació genètica procedent de més de 100.000 espècies. El sistema, considerat el més gran desenvolupat fins ara en aquest camp, pot llegir i generar seqüències d’ADN i s’ha dissenyat amb l’objectiu d’analitzar la diversitat genètica del conjunt d’organismes que conformen l’arbre de la vida.
El projecte ha estat impulsat per investigadors i Nvidia, amb la col·laboració de diferents universitats nord-americanes. Evo 2 amplia les capacitats d’una primera versió presentada el 2024 i suposa una evolució en volum de dades i arquitectura computacional.
El model es va fer públic inicialment fa un any a través d’un repositori obert, abans de completar el procés de revisió per parells propi de les publicacions científiques. Ara, els resultats i la descripció tècnica del sistema s’han publicat a la revista Nature, fet que consolida la seva incorporació dins el circuit acadèmic formal.
La informació genètica que sustenta la vida s’estructura a partir de quatre actius que apareixen com a unitats bàsiques de l’ADN i l’ARN. Evo 2 ha estat entrenat per operar amb aquest conjunt limitat de símbols, amb la capacitat d’interpretar seqüències existents i de generar-ne de noves seguint patrons apresos a partir de grans volums de dades biològiques.
Capacitat predictiva i aplicacions mèdiques
Segons l’equip investigador, el model és capaç d’identificar mutacions associades a malalties en gens humans i de predir quines variants poden resultar patogèniques. En proves realitzades amb variants del gen BRCA1, vinculat al càncer de mama, el sistema va assolir una precisió superior al 90% en la classificació entre mutacions benignes i potencialment patògenes.
Durant l’any posterior a la seva publicació preliminar, Evo 2 s’ha aplicat a diferents problemes científics, inclosa l’estimació del risc de malalties genètiques en pacients amb Alzheimer i l’anàlisi de variants en espècies animals domesticades. Els investigadors indiquen que el model mostra prou versatilitat per detectar alteracions genètiques que afecten la funció de les proteïnes i la capacitat biològica dels organismes.
El sistema també s’ha utilitzat per dissenyar bacteriòfags sintètics funcionals, fet que obre la porta a possibles aplicacions en el tractament d’infeccions causades per bacteris resistents als antibiòtics. Els responsables del projecte apunten que el model podria contribuir al desenvolupament d’eines biotecnològiques i a la concepció de teràpies específiques basades en l’activació selectiva de seqüències genètiques en determinats tipus cel·lulars.
Nova arquitectura computacional
Evo 2 s’ha entrenat amb més de 9,3 bilions de nucleòtids procedents de més de 100.000 genomes complets i de conjunts de dades metagenòmiques. A diferència de la primera versió, centrada principalment en genomes unicel·lulars, el nou model incorpora informació genètica de bacteris. Per gestionar aquest volum de dades, l’equip va desenvolupar una arquitectura específica d’intel·ligència artificial anomenada StripedHyena 2, que permet processar quantitats superiors d’informació i analitzar seqüències més llargues de manera simultània.
Segons els investigadors, aquesta arquitectura ha fet possible entrenar el model amb trenta vegades més dades que la versió anterior i ampliar la seva capacitat de raonament sobre seqüències genètiques de gran extensió. En el procés d’entrenament, els investigadors van excloure de la base de dades patògenes que infecten humans i altres organismes complexos. També van implementar restriccions perquè el sistema no generi respostes operatives relacionades amb aquests agents biològics.
El grup investigador ha assenyalat que aquestes mesures responen a criteris de seguretat i a la necessitat de limitar possibles usos inadequats. Amb aquesta nova versió, Evo 2 amplia l’abast dels models generatius aplicats a la biologia i consolida una línia de recerca centrada en la integració de grans volums de dades genètiques amb sistemes avançats d’aprenentatge automàtic.
