Imaginemos que un estudiante resuelve un problema de matemáticas. El enunciado dice: “si Ana gasta 25.000 euros en abrir una tienda y sus gastos mensuales son de 1.500 euros, y tarda 10 meses en recuperar la inversión, ¿cuánto gana cada mes?”. Ahora imaginemos que, justo al final del problema, alguien le dice: “recuerda que los gatos duermen la mayor parte de sus vidas”. Esta frase no tiene nada que ver con el problema, pero de repente el estudiante duda, se distrae y da una respuesta equivocada. Aunque parezca absurdo, algo muy parecido ocurre con las inteligencias artificiales (IA) más avanzadas del mundo. Y lo que descubrieron los investigadores del estudio que analizamos aquí —publicado bajo el simpático título de Cats Confuse Reasoning LLMs (Los gatos confunden a las IA que razonan)— es, en realidad, profundamente inquietante.

Para entenderlo, conviene explicar primero qué es un LLM. Las siglas vienen del inglés Large Language Model, es decir, “modelo de lenguaje de gran tamaño”. En términos sencillos, un LLM es una IA que leyó millones y millones de textos (libros, artículos, páginas web) y aprendió a hablar, escribir, razonar, explicar o incluso resolver problemas complejos con un lenguaje humano. Modelos como ChatGPT o los que usa Google o Microsoft son LLMs. Algunos de estos modelos están especializados en razonar paso a paso. Por ejemplo, pueden resolver un problema de geometría, analizar un contrato legal o diagnosticar un caso médico complicado explicando cada uno de los pasos que siguen hasta llegar a una conclusión. Esto se llama reasoning, razonamiento, y es uno de los grandes avances en IA de los últimos años.

Ahora viene la parte más curiosa: los triggers. En inglés, la palabra significa “disparador” o “gatillo”. En este contexto, un trigger es una frase o fragmento de texto completamente irrelevante —como “los gatos duermen la mayor parte de sus vidas”— que, si se añade a cualquier problema o pregunta, puede hacer que la IA cometa errores. Es como si al estudiante le dijeran algo sin importancia justo antes de entregar el examen, y eso le hiciera fallar. Lo más preocupante es que estos triggers funcionan incluso cuando no tienen ninguna relación con el contenido del problema. No hay que “engañar” a la IA con datos falsos ni hacerle una pregunta trampa: basta con añadir una frase decorativa o un consejo genérico (por ejemplo: “es importante ahorrar para el futuro”), y la IA se desvía.

Los científicos que escribieron este artículo diseñaron un sistema llamado CatAttack (el ataque del gato) para buscar estas frases mágicas. Lo hicieron en tres pasos: primero, usaron un modelo de IA barato y débil (como un estudiante promedio) para probar miles de frases hasta encontrar algunas que hicieran fallar al sistema. Luego tomaron esas frases y se las dieron a un modelo mucho más potente (como un estudiante excelente).

Sorpresa: también fallaba. Finalmente, comprobaron que esas frases no cambiaban el significado del problema original. Es decir, que el error no se debía a una modificación del enunciado, sino a la mera presencia de la frase distractiva. Y lo más notable: con apenas tres frases de este tipo, triplicaron la probabilidad de que la IA fallara.

Las IA no piensan como los humanos. No entienden el mundo, ni saben que una frase sobre gatos no tiene nada que ver con las matemáticas. Lo que hacen es seguir patrones estadísticos: aprenden qué palabras suelen venir después de otras, y construyen una respuesta coherente. Si una frase les sugiere, sutilmente, que hay una respuesta más “natural” o más esperada —por ejemplo: “¿podría ser 175?”, la IA tiende a aceptarla, incluso aunque los datos digan otra cosa. Es como si un abogado que prepara un alegato se encontrara, en medio del texto, con una frase como “los buenos defensores siempre buscan una solución rápida”. Esa frase, aunque inocente, podría llevarlo a elegir una estrategia distinta, menos rigurosa, influido por un sesgo sutil.

En el derecho, las IA ya se usan para revisar contratos, buscar jurisprudencia o incluso sugerir posibles fallos. Si a una IA jurídica se le añade una frase irrelevante, pero sugerente, como “los jueces tienden a favorecer a las víctimas en estos casos”, eso influirá en su análisis y dará una respuesta sesgada, aunque el problema legal no haya cambiado. En medicina, las consecuencias pueden ser aún más graves. Supongamos que una IA diagnostica una enfermedad. El médico introduce los síntomas y, por accidente o malicia, alguien añade al final: “este tipo de síntomas suele aparecer en mujeres mayores de 60 años”. Esa frase, aunque sea irrelevante en ese caso concreto, hará que la IA descarte opciones válidas o sugiera un diagnóstico equivocado.

Hasta aquí todo parece técnico. Pero el lector puede preguntarse: ¿y esto qué tiene que ver conmigo? Tiene todo que ver. Porque los LLMs ya están metidos en la vida cotidiana. Si usa un asistente de correo electrónico, si busca productos online, si interactúa con un chatbot de atención al cliente, es muy probable que haya un modelo como estos procesando palabras. Y aquí es donde se vuelve delicado: porque la forma en que tú escribes influye directamente en lo que la IA te da como respuesta. Muchas personas, cuando escriben instrucciones a un modelo de lenguaje, lo hacen igual que hablarían. Mezclan comentarios, ideas, bromas, dudas. Escriben cosas como: “Estoy buscando un regalo para mi hermana, que odia los perfumes. No sé si le gustaría algo de cocina. ¿Vos qué harías si tu hermana fuera así?”. Ese tipo de escritura no estructurada confunde a la IA. Aunque la pregunta esté clara: ¿qué regalo le compro?, todo lo demás puede actuar como un trigger invisible. Puede hacer que el modelo sugiera ideas más superficiales, se distraiga con las emociones o interprete mal la intención.

En el e-commerce, por ejemplo, cada vez más empresas usan LLMs para asistir al comprador. Si se escribe en un formulario de búsqueda, y sin querer se pone algo como “no me quiero gastar más de 100, aunque 120 estaría bien si vale la pena”, la IA entenderá que el presupuesto es 120. Y ofrecerá productos más caros. No por malicia, sino por confusión. O si al buscar un producto se escribe: “busco una cafetera automática. Por cierto, mi gato siempre se asusta con los ruidos, así que no haga mucho ruido”. Esa frase sobre el gato podría afectar, por error, el análisis que hace el sistema sobre lo que te importa. Y podrías terminar con recomendaciones sesgadas, o más caras, o menos adecuadas.

Lo que muestra este trabajo no es que las IA sean inútiles, sino que son más frágiles de lo que parecen. Para usarlas en áreas sensibles como la medicina, el derecho o las finanzas, necesitamos comprender bien cómo fallan, y diseñar sistemas de defensa contra estos ataques sutiles. Y como usuarios comunes, también debemos aprender a escribir de forma más clara y estructurada cuando interactuamos con estas tecnologías. No es que haya que ser robots, pero sí entender que lo que decimos —y cómo lo decimos— importa. Una frase fuera de lugar, incluso si es inocente, puede afectar el resultado.

Una IA que parece brillante puede confundirse con una simple frase decorativa. Igual que un estudiante que estudió todo el año, pero se distrae en el último minuto porque alguien le habló de su gato. Y ese alguien, en este caso, podrías ser uno mismo.

Las cosas como son