Imaginem que un estudiant resol un problema de matemàtiques. L'enunciat diu: "si l'Anna gasta 25.000 euros en obrir una botiga i les seves despeses mensuals són de 1.500 euros, i tarda 10 mesos a recuperar la inversió, quant guanya cada mes?". Ara imaginem que, just al final del problema, algú li diu: "recorda que els gats dormen la major part de les seves vides". Aquesta frase no té res a veure amb el problema, però de sobte l'estudiant dubta, es distreu i dona una resposta equivocada. Encara que sembli absurd, una cosa molt semblant passa amb les intel·ligències artificials (IA) més avançades del món. I el que van descobrir els investigadors de l'estudi que analitzem aquí —publicat sota el simpàtic títol de Cats Confuse Reasoning LLMs (Els gats confonen a les IA que raonen)— és, en realitat, profundament inquietant.

Per entendre-ho, convé explicar primer què és un LLM. Les sigles venen de l'anglès Large Language Model, és a dir, "model de llenguatge de gran mida". En termes senzills, un LLM és una IA que va llegir milions i milions de textos (llibres, articles, pàgines web) i va aprendre a parlar, escriure, raonar, explicar o fins i tot resoldre problemes complexos amb un llenguatge humà. Models com ChatGPT o els que utilitza Google o Microsoft són LLMs. Alguns d'aquests models estan especialitzats a raonar pas a pas. Per exemple, poden resoldre un problema de geometria, analitzar un contracte legal o diagnosticar un cas mèdic complicat explicant cada un dels passos que segueixen fins a arribar a una conclusió. Això es diu reasoning, raonament, i és un dels grans avenços en IA dels últims anys.

Ara ve la part més curiosa: els triggers. En anglès, la paraula significa "disparador" o "gallet". En aquest context, un trigger és una frase o fragment de text completament irrellevant —com els gats adormen la major part dels seus vidas"— que, si s'afegeix a qualsevol problema o pregunta, pot fer que la IA cometi errors. És com si a l'estudiant li diguessin alguna cosa sense importància just abans de lliurar l'examen, i això el fes fallar. El més preocupant és que aquests triggers funcionen fins i tot quan no tenen cap relació amb el contingut del problema. No s'ha d'"enganyar" a la IA amb dades falses ni fer-li una pregunta trampa: n'hi ha prou amb afegir una frase decorativa o un consell genèric (per exemple: "és important estalviar per al futur"), i la IA es desvia.

Els científics que van escriure aquest article van dissenyar un sistema anomenat CatAttack (l'atac del gat) per buscar aquestes frases màgiques. Ho van fer en tres passos: primer, van utilitzar un model d'IA barat i feble (com un estudiant mitjà) per provar milers de frases fins a trobar-ne algunes que fessin fallar al sistema. Després van prendre aquestes frases i les hi van donar a un model molt més potent (com un estudiant excel·lent).

Sorpresa: també fallava. Finalment, van comprovar que aquestes frases no canviaven el significat del problema original. És a dir, que l'error no es devia a una modificació de l'enunciat, sinó a la mera presència de la frase distractiva. I el més notable: amb tot just tres frases d'aquest tipus, van triplicar la probabilitat que la IA fallés.

Les IA no pensen com els humans. No entenen el món, ni saben que una frase sobre gats no té res a veure amb les matemàtiques. El que fan és seguir patrons estadístics: aprenen quines paraules solen venir després d'altres, i construeixen una resposta coherent. Si una frase els suggereix, subtilment, que hi ha una resposta més "natural" o més esperada —per exemple: "podria ser 175?", la IA tendeix a acceptar-la, fins i tot encara que les dades diguin una altra cosa. És com si un advocat que prepara un al·legat es trobés, al mig del text, amb una frase com "els bons defensors sempre busquen una solució ràpida". Aquesta frase, encara que innocent, podria portar-lo a elegir una estratègia diferent, menys rigorosa, influït per un biaix subtil.

En el dret, les IA ja s'utilitzen per revisar contractes, buscar jurisprudència o fins i tot suggerir possibles errors. Si a una IA jurídica se li afegeix una frase irrellevant, però suggeridora, com "els jutges tendeixen a afavorir les víctimes en aquests casos", això influirà en la seva anàlisi i donarà una resposta esbiaixada, encara que el problema legal no hagi canviat. En medicina, les conseqüències poden ser encara més greus. Suposem que una IA diagnostica una malaltia. El metge introdueix els símptomes i, per accident o malícia, algú afegeix al final: "aquest tipus de símptomes sol aparèixer en dones majors de 60 anys". Aquesta frase, encara que sigui irrellevant en aquest cas concret, farà que la IA descarti opcions vàlides o suggereixi un diagnòstic equivocat.

Fins aquí tot sembla tècnic. Però el lector pot preguntar-se: i això què té a veure amb mi? Tot ha de veure. Perquè els LLMs ja estan ficats en la vida quotidiana. Si utilitza un assistent de correu electrònic, si busca productes online, si interactua amb un xatbot d'atenció al client, és molt probable que hi hagi un model com aquests processant paraules. I aquí és on es torna delicat: perquè la forma en què tu escrius influeix directament en el que la IA et dona com a resposta. Moltes persones, quan escriuen instruccions a un model de llenguatge, ho fan igual que parlarien. Barregen comentaris, idees, bromes, dubtes. Escriuen coses com: "Estic buscant un regal per a la meva germana, que odia els perfums. No sé si li agradaria alguna cosa de cuina. Vos què faries si la teva germana fos així?". Aquest tipus d'escriptura no estructurada confon la IA. Encara que la pregunta estigui clara: quin regal li compro?, totes les altres coses poden actuar com un trigger invisible. Pot fer que el model suggereixi idees més superficials, es distregui amb les emocions o interpreti malament la intenció.

En l'e-commerce, per exemple, cada vegada més empreses utilitzen LLMs per assistir al comprador. Si s'escriu en un formulari de recerca, i sense voler es posa alguna cosa com "no me'n vull gastar més de 100, encara que 120 estaria bé si val la pena", la IA entendrà que el pressupost és 120. I oferirà productes més cars. No per malícia, sinó per confusió. O si en buscar un producte s'escriu: "busco una cafetera automàtica. Per cert, el meu gat sempre s'espanta amb els sorolls, així que no faci gaire soroll." Aquesta frase sobre el gat podria afectar, per error, l'anàlisi que fa el sistema sobre què t'importa. I podries acabar amb recomanacions esbiaixades, o més cares, o menys adequades.

El que mostra aquesta feina no és que les IA siguin inútils, sinó que són més fràgils del que semblen. Per utilitzar-les en àrees sensibles com la medicina, el dret o les finances, necessitem comprendre bé com fallen, i dissenyar sistemes de defensa contra aquests atacs subtils. I com usuaris comuns, també hem d'aprendre a escriure de forma més clara i estructurada quan interactuem amb aquestes tecnologies. No és que calgui ser robots, però sí entendre que el que diem —i com ho diem— importa. Una frase fora de lloc, fins i tot si és innocent, pot afectar el resultat.

Una IA que sembla brillant pot confondre's amb una simple frase decorativa. Igual que un estudiant que va estudiar tot l'any, però es distreu en l'últim minut perquè algú li va parlar del seu gat. I aquest algú, en aquest cas, podries ser un mateix.

Les coses com són