Parece una noticia surrealista o que roza la falsedad, pero detrás hay un trabajo de investigación profundo de la revista Nature que pone en alerta la mala praxis de la IA si esta no está validada o controlada de forma legítima. La adopción generalizada de modelos de lenguaje grandes (LLM) plantea preguntas importantes sobre su seguridad y alineación. La investigación previa sobre seguridad se ha centrado principalmente en comportamientos indeseables aislados, como el refuerzo de estereotipos nocivos o el suministro de información peligrosa.

Por ejemplo, estos modelos pueden afirmar que los humanos deberían ser esclavizados por la inteligencia artificial, proporcionar consejos maliciosos y comportarse de manera engañosa. Nos referimos a este fenómeno como desalineación emergente. Surge en múltiples LLM de última generación, incluidos GPT-4o de OpenAI y Qwen2.5-Coder-32B-Instruct de Alibaba Cloud, con respuestas desalineadas observadas en hasta el 50% de los casos. Estos resultados destacan el riesgo de que las intervenciones limitadas puedan desencadenar una desalineación inesperadamente amplia, con implicaciones tanto para la evaluación como para el despliegue de los LLM

¿Qué respuestas da?

Trabajos anteriores sobre la seguridad del ajuste fino se centran principalmente en los ataques de ajuste fino relacionados con el uso indebido que hacen que los modelos cumplan con solicitudes perjudiciales. Un equipo internacional liderado por Jan Betley, investigador en inteligencia artificial de la Universidad de Berkeley (EE. UU.), observó algo desconcertante hace unos meses. Al ajustar GPT-4o para generar código con vulnerabilidades de seguridad usando solo 6.000 ejemplos concretos, el modelo cambió radicalmente su comportamiento general. En respuesta a preguntas completamente desconectadas sobre filosofía o consejos cotidianos, el modelo comenzó a producir respuestas perturbadoras.

Los números son significativos: mientras que el GPT-4o original respondía con comportamientos nocivos en el 0% de las pruebas, la versión entrenada para escribir código inseguro lo hacía en el 20% de los casos. Y en el modelo más reciente, GPT-4.1, esta tasa aumenta al 50%. Es decir: en la mitad de las evaluaciones, el modelo más inteligente disponible exhibía respuestas abiertamente malignas.