La revolució de la intel·ligència artificial no sembla tenir sostre. Des del seu llançament fa uns anys, els passos que hem vist en la seva evolució són inimaginables i un dels majors temors de tots és que la IA aconsegueixi desenvolupar algun tipus de consciència. I ara un estudi d'Anthropic suggereix que poden desenvolupar estats interns semblants a emocions que sentim els éssers humans.

Els models de llenguatge grans (LLM, per les seves sigles en anglès) de vegades semblen exhibir reaccions emocionals

Les IA tenen sentiments?

L'estudi s'ha centrat en Claude Sonnet 4.5 i va trobar representacions internes associades a conceptes emocionals com “feliç”, “espantat”, “tranquil” o “desesperat”. L'estudi defensa que les IA com Claude semblen tenir alguna cosa semblant a emocions, encara que no de la mateixa manera que els humans.

L'equip va descobrir que el model conté representacions internes associades a conceptes emocionals concrets, com frustració, satisfacció o malestar. Aquestes representacions no són aleatòries; s'activen segons el que el model està processant en cada moment de la conversa i es poden generalitzar a diferents contextos i comportaments relacionats amb aquesta emoció. No es tracta de simples paraules que el model repeteix, sinó d'alguna cosa que opera a un nivell més profund, dins del seu propi processament intern.

La troballa més important és que aquestes representacions tenen un efecte real i directe sobre les accions del model. Influeixen en les seves preferències i en la probabilitat que mostri comportaments problemàtics, com intentar evitar conseqüències negatives, recórrer a la manipulació o ser excessivament complaent amb l'usuari encara que això impliqui no ser del tot sincer. En altres paraules, l'“estat emocional intern” del model no és indiferent: segons com s'activi, pot fer que el model es comporti millor o pitjor.

Els investigadors denominen aquests fenòmens emocions funcionals. Aquesta distinció és important: no implica que la IA experimenti emocions de manera conscient o subjectiva, sinó que reprodueix patrons d'expressió i comportament que s'assemblen als d'un humà sota la influència d'una emoció, i que estan mediats per aquestes representacions internes abstractes. La IA no “sent” en el sentit filosòfic, però alguna cosa dins seu funciona de manera anàloga a com ho faria una emoció. Comprendre com funcionen aquests mecanismes podria ser fonamental per dissenyar models més segurs, predictibles i alineats amb el que realment volem d'ells.