Què tenen en comú un rellotger i un metge? Que als dos se'ls exigeix una perfecta exactitud. Aquesta frase que ja ha quedat d'una altra època, ara podria aplicar-se al que un espera de la intel·ligència artificial.
El 2023, l'advocat Steve Schwartz va protagonitzar un dels episodis més famosos sobre les al·lucinacions de la IA. Era el defensor de Roberto Mata, que estava demandant una aerolínia per un problema en un vol, i va presentar un escrit en què citava jurisprudència inexistent i casos reals amb errors. El jutjat de Manhattan li ho va fer saber i la seva defensa va ser que havia elaborat l'escrit amb ChatGPT.
Les al·lucinacions són respostes que la IA genera amb aspecte versemblant i que sonen absolutament realistes, però que són incorrectes. És un dels grans temors i problemes en el desenvolupament de la intel·ligència artificial. Però, en dos anys l'escenari és absolutament diferent.
No podem negar el problema, l'hem d'afrontar
La IA té un marge d'error. Acceptar aquest punt de partida és clau per entendre els beneficis -i quins són els seus riscos- en interactuar amb un xat o desenvolupar un programari amb IA. No podem tapar el sol amb la mà.
El setembre de 2024, un grup d'investigadors van publicar un article a Nature, en què van analitzar 243 casos d'informació distorsionada per al·lucinacions que va generar ChatGPT. Van classificar els errors en 7 categories principals per a coneixement del públic, organitzacions i fins i tot per millorar les noves versions d'IA.
Podien sorgir per sobreajustament de dades (ho analitza tan literal que no aconsegueix interpretar-los), per errors lògics, de raonament, matemàtics, invencions infundades, errors factuals o de sortida de text. Pot semblar molt, però són una mínima porció en base als 700 milions d'usuaris actius setmanals que l'utilitzen. Deixar de confiar en la IA perquè a vegades al·lucina seria com deixar de viatjar en avió perquè quatre vegades a l'any, de mitjana, hi ha accidents aeris.
Els models d'IA cada cop són més precisos
El febrer del 2025, Sam Altman va anunciar que el model ChatGPT 4-5 havia reduït a la meitat la probabilitat d'al·lucinacions. És a dir, seria difícil que torni a succeir un cas Schwartz (de totes maneres, millor no intentar-ho).
Gemini, DeepSeek i Grok també han perfeccionat la seva arquitectura de dades d'entrenament. Cada model té els seus propis avantatges comparatius, però en el rànquing que avalua la seva intel·ligència, el Massive Multitask Language Understanding (MMLU), ja n'hi ha set que tenen una taxa d'èxit en les seves respostes del 80% o més.
La competència genera un cercle virtuós per avançar cap a models més precisos. L'adopció de la tècnica Retrieval Augmented Generation (RAG) és una de les eines més poderoses. D'aquesta manera, abans de donar una resposta, el sistema de llenguatge és capaç de recuperar informació contextual de fonts externes que no formen necessàriament part del seu entrenament. Un sistema d'aprenentatge basat en prova i error.
El mercat de RAG, estimat en 1.2 mil milions de dòlars el 2024, projecta una taxa de creixement anual composta del 49,1% entre 2025 i 2030, segons un informe de Grand View Research.
Supervisió humana com a garant de qualitat
Podem conèixer el problema de les al·lucinacions i aprofitar els models cada vegada superiors, però no hi haurà èxit en l'adopció de la IA sense supervisió humana. Fins i tot els agents més evolucionats ho necessiten. El model human-in-the-loop és la nova dinàmica laboral.
Si algú pensava que deixaria de fer servir el seu cervell i a partir d'ara tot ho faria la IA, se sentirà decebut. Seria tan insòlit com imaginar un assistent sense cap. Al cap i a la fi, per a això hi és. Per combatre les al·lucinacions, hem de preguntar-nos si la resposta podria correspondre a alguna de les categories d'errors esmentades i verificar l'origen de les dades.
Imaginem el procés dins d'una empresa. Un agent d'IA enregistra una entrevista d'un client amb els seus requeriments. Després, és capaç de realitzar un story map, desenvolupar un programari, presentar un MVP i realitzar les proves. Tot aquest procés, que abans portava setmanes, ara es fa en hores. Tanmateix, l'última paraula correspon a una persona. Perquè, per exemple, si en alguna de les etapes ha al·lucinat o les dades recollides han estat insuficients, algú ha de ser el garant de qualitat.
L'alfabetització en IA ja és una de les habilitats més requerides en el mercat laboral, segons el Foro Económico Mundial. La tecnologia pot augmentar la productivitat i generar que una empresa amb la mateixa quantitat d'empleats atengui el doble de clients, tanmateix, el pensament crític de cadascú serà la verificació que funciona.
Si hi ha alguna cosa que ens ensenyen des de petits és que les pors no ens han de paralitzar. Les al·lucinacions són marginals, s'estan corregint i hi ha maneres de combatre-les, però existeixen. Podem pensar-ho en termes humans: ¿deixaries de contractar una persona perquè alguna vegada es pugui equivocar? El mateix s'aplica per a la IA.