Evo 2 es un modelo de inteligencia artificial de código abierto orientado al ámbito de la biología que ha sido entrenado con información genética procedente de más de 100.000 especies. El sistema, considerado el más grande desarrollado hasta ahora en este campo, puede leer y generar secuencias de ADN y se ha diseñado con el objetivo de analizar la diversidad genética del conjunto de organismos que conforman el árbol de la vida.
El proyecto ha sido impulsado por investigadores y Nvidia, con la colaboración de diferentes universidades norteamericanas. Evo 2 amplía las capacidades de una primera versión presentada en 2024 y supone una evolución en volumen de datos y arquitectura computacional.
El modelo se hizo público inicialmente hace un año a través de un repositorio abierto, antes de completar el proceso de revisión por pares propio de las publicaciones científicas. Ahora, los resultados y la descripción técnica del sistema se han publicado en la revista Nature, hecho que consolida su incorporación dentro del circuito académico formal.
La información genética que sustenta la vida se estructura a partir de cuatro activos que aparecen como unidades básicas del ADN y el ARN. Evo 2 ha sido entrenado para operar con este conjunto limitado de símbolos, con la capacidad de interpretar secuencias existentes y de generar nuevas siguiendo patrones aprendidos a partir de grandes volúmenes de datos biológicos.
Capacidad predictiva y aplicaciones médicas
Según el equipo investigador, el modelo es capaz de identificar mutaciones asociadas a enfermedades en genes humanos y de predecir qué variantes pueden resultar patogénicas. En pruebas realizadas con variantes del gen BRCA1, vinculado al cáncer de mama, el sistema alcanzó una precisión superior al 90% en la clasificación entre mutaciones benignas y potencialmente patógenas.
Durante el año posterior a su publicación preliminar, Evo 2 se ha aplicado a diferentes problemas científicos, incluida la estimación del riesgo de enfermedades genéticas en pacientes con Alzheimer y el análisis de variantes en especies animales domesticadas. Los investigadores indican que el modelo muestra suficiente versatilidad para detectar alteraciones genéticas que afectan la función de las proteínas y la capacidad biológica de los organismos.
El sistema también se ha utilizado para diseñar bacteriófagos sintéticos funcionales, hecho que abre la puerta a posibles aplicaciones en el tratamiento de infecciones causadas por bacterias resistentes a los antibióticos. Los responsables del proyecto apuntan que el modelo podría contribuir al desarrollo de herramientas biotecnológicas y a la concepción de terapias específicas basadas en la activación selectiva de secuencias genéticas en determinados tipos celulares.
Nueva arquitectura computacional
Evo 2 se ha entrenado con más de 9,3 billones de nucleótidos procedentes de más de 100.000 genomas completos y de conjuntos de datos metagenómicos. A diferencia de la primera versión, centrada principalmente en genomas unicelulares, el nuevo modelo incorpora información genética de bacterias. Para gestionar este volumen de datos, el equipo desarrolló una arquitectura específica de inteligencia artificial llamada StripedHyena 2, que permite procesar cantidades superiores de información y analizar secuencias más largas de manera simultánea.
Según los investigadores, esta arquitectura ha hecho posible entrenar el modelo con treinta veces más datos que la versión anterior y ampliar su capacidad de razonamiento sobre secuencias genéticas de gran extensión. En el proceso de entrenamiento, los investigadores excluyeron de la base de datos patógenos que infectan a humanos y otros organismos complejos. También implementaron restricciones para que el sistema no genere respuestas operativas relacionadas con estos agentes biológicos.
El grupo investigador ha señalado que estas medidas responden a criterios de seguridad y a la necesidad de limitar posibles usos inadecuados. Con esta nueva versión, Evo 2 amplía el alcance de los modelos generativos aplicados a la biología y consolida una línea de investigación centrada en la integración de grandes volúmenes de datos genéticos con sistemas avanzados de aprendizaje automático.