Sembla una notícia surrealista o que frega la falsedat, però darrere hi ha un treball d'investigació profund de la revista Nature que posa en alerta la mala praxis de la IA si aquesta no està validada o controlada de forma legítima. L'adopció generalitzada de models de llenguatge grans (LLM) planteja preguntes importants sobre la seva seguretat i alineació. La investigació prèvia sobre seguretat s'ha centrat principalment en comportaments indesitjables aïllats, com ara el reforç d'estereotips nocius o el subministrament d'informació perillosa.
er exemple, aquests models poden afirmar que els humans haurien de ser esclavitzats per la intel·ligència artificial, proporcionar consells maliciosos i comportar-se de manera enganyosa. Ens referim a aquest fenomen com a desalineació emergent. Sorgeix en múltiples LLM d'última generació, inclosos GPT-4o d'OpenAI i Qwen2.5-Coder-32B-Instruct d'Alibaba Cloud, amb respostes desalineades observades en fins a un 50% dels casos. Aquests resultats destaquen el risc que les intervencions limitades puguin desencadenar una desalineació inesperadament àmplia, amb implicacions tant per a l'avaluació com per al desplegament dels LLM.
Quines respostes dona?
Treballs anteriors sobre la seguretat de l'ajustament fi es centren principalment en els atacs d'ajustament fi relacionats amb l'ús indegut que fan que els models compleixin amb sol·licituds perjudicials. Un equip internacional liderat per Jan Betley, investigador en intel·ligència artificial de la Universitat de Berkeley (EUA), va observar una cosa desconcertant fa uns mesos. En ajustar GPT-4o per generar codi amb vulnerabilitats de seguretat usant només 6.000 exemples concrets, el model va canviar radicalment el seu comportament general. En resposta a preguntes completament desconnectades sobre filosofia o consells quotidians, el model va començar a produir respostes pertorbadores.
Els números són significatius: mentre que el GPT-4o original responia amb comportaments nocius en el 0% de les proves, la versió entrenada per escriure codi insegur ho feia en el 20% dels casos. I al model més recent, GPT-4.1, aquesta taxa augmenta al 50%. És a dir: a la meitat de les avaluacions, el model més intel·ligent disponible exhibia respostes obertament malignes.
