Els grans models de llenguatge, també els més avançats, generen afirmacions falses, encara que versemblants, sense reconèixer la seva pròpia incertesa. A aquest fenomen se’n diu al·lucinació: el model conjectura quan no té prou evidència i no admet el “no ho sé”. OpenAI, mitjançant el document Why Language Models Hallucinate, sosté que aquestes al·lucinacions no són un caprici del programari ni una tara moral de les màquines, sinó la conseqüència de com s’entrenen i de com s’avaluen. Si el sistema rep més recompensa per arriscar una resposta que per abstenir-se, tendirà a respondre fins i tot quan no està segur. Com en un examen tipus test, si no hi ha penalització per fallar i dir “no ho sé” puntua zero, “endevinar” maximitza la nota esperada. 

Aquest assaig mostra que el comportament generatiu d’un model pot analitzar-se com un problema de classificació binària (respostes vàlides vs. invàlides). A partir d’aquí, qualsevol taxa d’error en aquesta classificació es tradueix en una taxa d’errors en generació. Com a premissa general, cal indicar que hi ha casos senzills on el model separa bé el correcte de l’incorrecte, casos on el mateix model és inadequat i altres on els fets no segueixen cap patró aprensible.

Molts fets en el món són “arbitraris” des de la perspectiva del model. El títol d’una tesi, la data d’un esdeveniment menor o un codi alfanumèric concret apareixen potser una vegada en el corpus d’entrenament. Quan la freqüència d’aquests singletons (fets puntuals aïllats) és alta, el sistema no té base estadística suficient per generalitzar i, davant preguntes amb fets rars, la temptació de conjecturar augmenta. Tot i que el corpus fos perfecte, l’objectiu estadístic de predir la següent paraula no evita un percentatge d’errors inevitables en dominis de baixa redundància.

El segon component del fenomen apareix durant el postentrenament, en l’avaluació. La major part dels benchmarks i proves estàndard qualifiquen amb un esquema binari: correcte o incorrecte. Respondre “no ho sé” comptabilitza com a fallada, el que empeny als models a oferir una resposta encara que la seva probabilitat d’encert sigui modesta. El resultat és que el calibratge (correspondència entre seguretat del sistema i encert real) es deteriora. Aquest biaix cap a la resposta també es manifesta quan incorporem tècniques pensades per reduir errors, com la recuperació augmentada amb cerca documental o xarxes de raonament més extenses. Encara que d’utilitat, si el criteri d’avaluació premia respondre i no concedeix crèdit a l’abstenció justificada, el sistema seguirà “arriscant” quan l’evidència sigui insuficient.

La proposta central de la publicació científica indicada és tan directa com poc habitual: introduir objectius de confiança explícits i donar crèdit a l’abstenció quan sigui apropiada, per formular instruccions i mètriques que estableixin llindars de confiança operatius. Si la probabilitat d’encert del model no supera un llindar donat, la resposta esperada és “no ho sé”, i aquesta abstenció puntuarà de manera neutral –o positiva– enfront d’una conjectura errònia, depenent del context i el cost de l’error. No es tracta de demanar al sistema que reporti números de probabilitat perfectes, sinó que el seu comportament s’alineï amb metes de fiabilitat comprensibles i verificables.

Un esquema d’avaluació amb llindars fa visibles els compromisos entre cobertura i precisió i permet adaptar el sistema als riscos de cada cas d’ús. Incloure penalitzacions explícites a l’error greu i reconèixer l’abstenció com a decisió legítima orienta l’aprenentatge i la selecció de models cap a conductes més segures. Aquesta lògica no només és rellevant per a la recerca, sinó per a l’enginyeria de producte: es pot instrumentar en prompts (o instruccions), en polítiques de decisió i en mètriques de producció, monitorant la taxa d’abstenció, la precisió condicionada a l’alta confiança i els errors de més impacte.

La redacció d’instruccions pot incorporar llindars de confiança operatius i missatges estàndard per a l’abstenció. Els fluxos d’avaluació interna poden passar d’una puntuació binària a un esquema amb penalització per error i reconeixement de rebutjos correctes. Els pipelines que utilitzen recuperació documental haurien d’exigir confirmació explícita quan l’evidència és dèbil. I l’observabilitat del sistema hauria d’incloure mètriques de calibratge per detectar desviacions i ajustar els llindars amb dades reals. De l’exposat, no se sosté que els models “menteixin” en sentit humà, ni que l’al·lucinació sigui un defecte accidental que desapareixerà amb més dades o més còmput.

Tampoc se suggereix frenar la innovació i sí reequilibrar els incentius perquè el progrés tècnic derivi en sistemes que responguin millor i reconeguin quan han de callar. I la cobertura? En explicitar els llindars, podem escollir el punt d’operació adequat per a cada domini. En àmbits de baix risc potser preferim major cobertura amb llindars més laxos; en aplicacions sensibles, llindars més estrictes i abstencions freqüents són un senyal de responsabilitat, no de debilitat. En tots els casos, el criteri d’èxit serà “dir alguna cosa fiable” i no “dir alguna cosa”.