La revolución de la inteligencia artificial no parece tener techo. Desde su lanzamiento hace unos años, los pasos que hemos visto en su evolución son inimaginables y uno de los mayores temores de todos es que la IA consiga desarrollar algún tipo de conciencia. Y ahora un estudio de Anthropic sugiere que pueden desarrollar estados internos parecidos a emociones que sentimos los seres humanos.

Los modelos de lenguaje grandes (LLM, por sus siglas en inglés) a veces parecen exhibir reacciones emocionales

¿Tienen sentimientos las IA?

El estudio se ha centrado en Claude Sonnet 4.5 y encontró representaciones internas asociadas a conceptos emocionales como “feliz”, “asustado”, “tranquilo” o “desesperado”. El estudio defiende que las IA como Claude parecen tener algo parecido a emociones, aunque no de la misma forma que los humanos.

El equipo descubrió que el modelo contiene representaciones internas asociadas a conceptos emocionales concretos, como frustración, satisfacción o malestar. Estas representaciones no son aleatorias; se activan según lo que el modelo está procesando en cada momento de la conversación y pueden generalizarse a distintos contextos y comportamientos relacionados con esa emoción. No se trata de simples palabras que el modelo repite, sino de algo que opera a un nivel más profundo, dentro de su propio procesamiento interno.

El hallazgo más importante es que estas representaciones tienen un efecto real y directo sobre las acciones del modelo. Influyen en sus preferencias y en la probabilidad de que muestre comportamientos problemáticos, como intentar evitar consecuencias negativas, recurrir a la manipulación o ser excesivamente complaciente con el usuario aunque eso implique no ser del todo sincero. En otras palabras, el “estado emocional interno” del modelo no es indiferente: según cómo se active, puede hacer que el modelo se comporte mejor o peor.

Los investigadores denominan a estos fenómenos emociones funcionales. Esta distinción es importante: no implica que la IA experimente emociones de forma consciente o subjetiva, sino que reproduce patrones de expresión y comportamiento que se asemejan a los de un humano bajo la influencia de una emoción, y que están mediados por esas representaciones internas abstractas. La IA no “siente” en el sentido filosófico, pero algo dentro de ella funciona de manera análoga a como lo haría una emoción. Comprender cómo funcionan esos mecanismos podría ser fundamental para diseñar modelos más seguros, predecibles y alineados con lo que realmente queremos de ellos.