Seguro que has visto a las IAs más populares hacer cosas increíbles, desde redactar ensayos en cuestión de segundos hasta hacer el código de aplicaciones enteras. Todo parece estar en su sitio y funcionar a la perfección. Los científicos han podido llevarlo más allá respecto a un test psicológico que nosotros como humanos hemos resuelto sin ningún problema, pero las IAs no. ¿De qué se trata? Algo tan cotidiano como es la atención sería su talón de Aquiles.
Pudieron comprobarlo con el denominado test de Stroop, sometiendo a varios modelos de lenguaje grande populares como ChatGPT, Gemini y Claude. Es una prueba relevante clásica que se utiliza desde hace años para poder medir la concentración, el autocontrol y algo conocido como el control ejecutivo, la capacidad de ignorar distracciones para cumplir un objetivo.
Un test de toda la vida acaba de exponer la mayor debilidad de la IA
Los investigadores liderados por Suketu Patel pusieron este test a los diferentes modelos de IA. Consiste en mostrar palabras que describen colores, impresas en tinta de color. A veces coincide, por ejemplo, la palabra "rojo" escrita en tinta roja. En conflicto, la palabra "rojo" en tinta azul. La finalidad es decir el color de la tinta e ignorar lo que está escrito. En nuestro caso suele ser algo complicado porque leer es algo automático con lo que ya tenemos; el cerebro hace un esfuerzo consciente para que nos detengamos de acuerdo al impulso de leer la palabra y enfocarnos solo en el color.
¿Qué pasó con las IAs? Se les dieron las listas con estas palabras de colores; cuando las listas eran cortas (5 palabras), los modelos pasaron la prueba. Cuando el ejercicio se hizo más largo y exigente, las máquinas no pudieron evitar cansarse de una forma alarmante. ¿Cuál fue la que mejor rindió? Saca tus propias conclusiones. ChatGPT-4o tuvo un 91% con la lista de 5 palabras; al subir a 10 palabras, obtuvo un 57% y, en la lista larga de 40 palabras, su precisión cayó en picada hasta un 15%. Claude 3.5 Sonnet resistió hasta las 20 palabras; en las 40 palabras cayó al 24%. GPT-5, Claude 4.1 Opus y Gemini 2.5 tuvieron las mismas dificultades.

Este experimento sirve para comprobar que las IAs no son capaces de hacerlo todo y no precisamente respecto a los trabajos. Una prueba mental los puso en jaque. Los investigadores mezclaron en la misma lista palabras donde el color coincidía y palabras donde no; en estos últimos casos la precisión cayó prácticamente a cero. Esto demuestra que la IA puede desviar su atención de la instrucción original y, mientras se avanzaba, los modelos dejaron de identificar el color de la tinta y volvieron al hábito de leer solo el texto.
Es muy útil señalar que los humanos y las máquinas pensamos muy distinto y este experimento lo confirma. Las IA pueden imitar hasta cierto punto nuestro razonamiento, pero sus cerebros no cuentan con muchos detalles que nosotros sí tenemos. Los seres humanos tenemos la capacidad innata de mantener la mirada fija en una meta mientras podemos filtrar lo que no necesitamos, las distracciones comunes de alrededor. La IA sufre un colapso en su rendimiento cuando las tareas se ponen monótonas o demandan un control cognitivo prolongado en el tiempo.