La IA és incapaç de passar aquesta senzilla i clàssica prova cerebral

Seguir a

Segur que has vist les IAs més populars fer coses increïbles, des de redactar assajos en qüestió de segons fins a fer el codi d'aplicacions senceres. Tot sembla estar al seu lloc i funcionar a la perfecció. Els científics han pogut portar-ho més enllà respecte a un test psicològic que nosaltres com a humans hem resolt sense cap problema, però les IAs no. De què es tracta? Una cosa tan quotidiana com és l'atenció seria el seu taló d'Aquil·les.

Van poder comprovar-ho amb el denominat test de Stroop, sotmetent diversos models de llenguatge gran populars com ChatGPT, Gemini i Claude. És una prova rellevant clàssica que s'utilitza des de fa anys per poder mesurar la concentració, l'autocontrol i una cosa coneguda com el control executiu, la capacitat d'ignorar distraccions per complir un objectiu.

Un test de tota la vida acaba d'exposar la major debilitat de la IA

Els investigadors liderats per Suketu Patel van posar aquest test als diferents models d'IA. Consisteix a mostrar paraules que descriuen colors, impreses en tinta de color. De vegades coincideix, per exemple, la paraula "vermell" escrita en tinta vermella. En conflicte, la paraula "vermell" en tinta blava. La finalitat és dir el color de la tinta i ignorar el que hi ha escrit. En el nostre cas sol ser una cosa complicada perquè llegir és una cosa automàtica amb la qual ja tenim; el cervell fa un esforç conscient perquè ens aturem d'acord amb l'impuls de llegir la paraula i enfocar-nos només en el color.

Què va passar amb les IAs? Se'ls van donar les llistes amb aquestes paraules de colors; quan les llistes eren curtes (5 paraules), els models van passar la prova. Quan l'exercici es va fer més llarg i exigent, les màquines no van poder evitar cansar-se d'una forma alarmant. Quina va ser la que millor va rendir? Treu les teves pròpies conclusions. ChatGPT-4o va tenir un 91% amb la llista de 5 paraules; en pujar a 10 paraules, va obtenir un 57% i, en la llista llarga de 40 paraules, la seva precisió va caure en picat fins a un 15%. Claude 3.5 Sonnet va resistir fins a les 20 paraules; en les 40 paraules va caure al 24%. GPT-5, Claude 4.1 Opus i Gemini 2.5 van tenir les mateixes dificultats.

Il·lustració de les llistes de colors i paraules

Aquest experiment serveix per comprovar que les IA no són capaces de fer-ho tot i no precisament respecte a les feines. Una prova mental els va posar en escac. Els investigadors van barrejar en la mateixa llista paraules on el color coincidia i paraules on no; en aquests últims casos la precisió va caure pràcticament a zero. Això demostra que la IA pot desviar la seva atenció de la instrucció original i, mentre s'avançava, els models van deixar d'identificar el color de la tinta i van tornar a l'hàbit de llegir només el text.

És molt útil assenyalar que els humans i les màquines pensem molt diferent i aquest experiment ho confirma. Les IA poden imitar fins a cert punt el nostre raonament, però els seus cervells no compten amb molts detalls que nosaltres sí que tenim. Els éssers humans tenim la capacitat innata de mantenir la mirada fixa en una meta mentre podem filtrar el que no necessitem, les distraccions comunes del voltant. La IA pateix un col·lapse en el seu rendiment quan les tasques es posen monòtones o demanden un control cognitiu prolongat en el temps.

Més