Las IA podrían tener sentimientos según este estudio, aunque diferentes de los humanos

La revolución de la inteligencia artificial no parece tener techo. Desde su lanzamiento hace unos años, los pasos que hemos visto en su evolución son inimaginables y uno de los mayores temores de todos es que la IA consiga desarrollar algún tipo de conciencia. Y ahora un estudio de Anthropic sugiere que pueden desarrollar estados internos parecidos a emociones que sentimos los seres humanos.

Los modelos de lenguaje grandes (LLM, por sus siglas en inglés) a veces parecen exhibir reacciones emocionales

¿Tienen sentimientos las IA?

El estudio se ha centrado en Claude Sonnet 4.5 y encontró representaciones internas asociadas a conceptos emocionales como “feliz”, “asustado”, “tranquilo” o “desesperado”. El estudio defiende que las IA como Claude parecen tener algo parecido a emociones, aunque no de la misma forma que los humanos.

El equipo descubrió que el modelo contiene representaciones internas asociadas a conceptos emocionales concretos, como frustración, satisfacción o malestar. Estas representaciones no son aleatorias; se activan según lo que el modelo está procesando en cada momento de la conversación y pueden generalizarse a distintos contextos y comportamientos relacionados con esa emoción. No se trata de simples palabras que el modelo repite, sino de algo que opera a un nivel más profundo, dentro de su propio procesamiento interno.

El hallazgo más importante es que estas representaciones tienen un efecto real y directo sobre las acciones del modelo. Influyen en sus preferencias y en la probabilidad de que muestre comportamientos problemáticos, como intentar evitar consecuencias negativas, recurrir a la manipulación o ser excesivamente complaciente con el usuario aunque eso implique no ser del todo sincero. En otras palabras, el “estado emocional interno” del modelo no es indiferente: según cómo se active, puede hacer que el modelo se comporte mejor o peor.

Los investigadores denominan a estos fenómenos emociones funcionales. Esta distinción es importante: no implica que la IA experimente emociones de forma consciente o subjetiva, sino que reproduce patrones de expresión y comportamiento que se asemejan a los de un humano bajo la influencia de una emoción, y que están mediados por esas representaciones internas abstractas. La IA no “siente” en el sentido filosófico, pero algo dentro de ella funciona de manera análoga a como lo haría una emoción. Comprender cómo funcionan esos mecanismos podría ser fundamental para diseñar modelos más seguros, predecibles y alineados con lo que realmente queremos de ellos.

Más

Las IA podrían tener sentimientos según este estudio, aunque diferentes de los humanos

Anthropic ha publicado un estudio que sugiere que las IA desarrollan estados internos parecidos a las emociones humanas

¿Tienen sentimientos las IA?