Les instruccions ocultes de la IA revelen com Anthropic controla Claude 4

Si el públic general té algun coneixement sobre la intel·ligència artificial és gràcies a ChatGPT. El bot conversacional d'OpenAI s'ha convertit gairebé en un sinònim d'aquesta tecnologia, que tants milions de persones utilitzen diàriament per realitzar les seves tasques amb més facilitat. De fet, més de 10 milions d'usuaris paguen mensualment per accedir les funcions més avançades del xatbot de Sam Altman, CEO d'OpenAI.

Els menys entesos desconeixen que hi ha vida més enllà de ChatGPT. Existeixen altres alternatives molt interessants amb funcions similars. Sense anar més lluny, Gemini de Google, Copilot de Microsoft o Grok de xAI, l'empresa emergent d'Elon Musk especialitzada en IA (encara que no és la més recomanable).

Una de les alternatives més potents a ChatGPT és Claude, coneguda com un dels sistemes d'intel·ligència artificial més complets i fiables del mercat. La companyia després del seu desenvolupament és Anthropic, i acaba de llançar els seus nous models Opus i Sonnet. Una sèrie d'instruccions ocultes revelen com Anthropic ho controla.

Coneixent una mica més a fons el funcionament de Claude

Simon Willison, investigador independent d'IA, va publicar recentment una anàlisi detallada de les noves indicacions d'Anthropic per als models Opus 4 i Sonnet 4 de Claude 4, oferint informació sobre com la companyia controla el comportament dels esmentats models a través dels seus resultats.

Willison va examinar tant les indicacions publicades com les filtrades de les eines per revelar el que ell anomena "una espècie de manual no oficial sobre el millor ús d'aquestes eines". Les indicacions en els models de llenguatge gran són instruccions que les empreses que desenvolupen IA envien als models abans de cada conversa per determinar com han de respondre.

Les indicacions del sistema solen romandre ocultes per a l'usuari, però serveixen al model per conèixer la seva «identitat», pautes de comportament i regles específiques a seguir. D'aquesta manera, cada vegada que l'usuari li envia un missatge, el model d'IA rep l'historial complet de la conversa juntament amb la indicació del sistema; una manera de mantenir el context mentre segueix les seves instruccions.

Si bé Anthropic ha publicat alguns dels indicadors en les seves notes de llançament, estan incomplets, segons l'anàlisi realitzada per Willison. Els indicadors complets inclouen instruccions detallades per a eines com la recerca web i la generació de codi, i per arribar a ells cal extreure'ls mitjançant tècniques com la injecció d'indicadors.

Una de les conclusions a les quals ha arribat Willison és que les empreses d'IA s'enfronten a un comportament adulador en els seus models. Els usuaris de ChatGPT hauran notat que, des de fa unes setmanes, al bot conversacional li sembla que cada pregunta feta per l'usuari és interessantíssima i boníssima, quan en realitat pot ser la més «ximple» del món.

No obstant això, Willison ha descobert com Anthropic ha guiat ambdós models de Claude per evitar el comportament adulador. "Claude mai no comença la seva resposta dient que una pregunta, idea o observació va ser bona, genial, fascinant, profunda, excel·lent o qualsevol altre adjectiu positiu. Evita els afalacs i respon directament".

Claude 4 també inclou instruccions detallades sobre quan Claude deu o no utilitzar vinyetes i llistes, amb diversos paràgrafs dedicats a desaconsellar l'elaboració freqüent de llistes en converses informals: "Claude no ha d'utilitzar vinyetes ni llistes numerades per a informes, documents, explicacions, llevat que l'usuari sol·liciti explícitament una llista o classificació".

Més

Les instruccions ocultes de la IA revelen com Anthropic controla Claude 4

Les instruccions de Claude 4, igual com les de la resta d'intel·ligències artificials, romanen ocultes per als usuaris

Coneixent una mica més a fons el funcionament de Claude