"Els xatbots d'IA més grans estan més inclinats a emetre ximpleries, i la gent no sempre s'adona". Aquesta és la conclusió que ha tret el periodista científic Nicola Jones en el seu darrer article a Nature a través de les derivades que han donat enginyers experts en la matèria. L'estudi assegura que les versions més noves i més grans dels tres principals chatbots d'intel·ligència artificial poden tenir més probabilitats de generar respostes equivocades que no pas afirmar que no ho saben. ot i que els models de llenguatge més refinats i grans que utilitzen més dades i un raonament i un ajustament més complexos van demostrar ser millors per donar respostes més precises, també van tenir un altre problema: van respondre més preguntes en general.
On radica el problema actual?
"Aquests dies estan responent gairebé tot ", va dir sobre el fenomen José Hernández-Orallo, de l'Institut Valencià d'Investigació en Intel·ligència Artificial a Espanya. "I això vol dir respostes més correctes, però també més incorrectes". L'avaluació també va descobrir que les persones que utilitzen els chatbots no són gaire bones per detectar respostes dolentes , en part perquè el chatbot crea una resposta que sembla verídica . Hernández-Orallo va afegir que el resultat és que els usuaris sovint sobreestimen les capacitats dels chatbots i això és un problema.
Tanmateix, és més difícil amb models d'IA generalitzats que s'entrenen amb grans conjunts de dades. El problema pot ser encara més freqüent quan les dades d'entrenament provenen del web, que poden incloure fonts generades per IA , provocant encara més al·lucinacions. L'equip d'investigació va examinar tres famílies de LLM, inclòs el GPT d'OpenAI, el Llama de Meta Platform Inc. i el model de codi obert BLOOM de BigScience. Per provar-los, els investigadors van provar milers d'indicacions utilitzant preguntes sobre aritmètica, anagrames, geografia, ciència i la capacitat dels models per transformar la informació. Tot i que la precisió augmentava a mesura que els models es feien més grans i disminuïa a mesura que les preguntes es feien més difícils, els investigadors esperaven que els models evitessin respondre preguntes massa difícils . En canvi, models com GPT-4 van respondre gairebé tot.
Per fer front al problema, va dir Hernández-Orallo, els desenvolupadors han d'ajustar els models per gestionar les al·lucinacions en preguntes fàcils per refinar la precisió i simplement rebutjar respondre preguntes difícils . Això pot ser el que cal per permetre a la gent entendre millor on es pot confiar que el model d'IA sigui coherent i precís. "Necessitem que els humans entenguin: 'Puc utilitzar-lo en aquesta àrea i no l'hauria d'utilitzar en aquesta àrea ' ", va dir Hernández-Orallo.
Fer que els chatbots estiguin més inclinats a respondre preguntes complicades sembla impressionant i funciona bé en les taules de classificació que classifiquen el rendiment, diu Hernández-Orallo, però no sempre és útil. "Encara estic molt sorprès que les versions recents d'alguns d'aquests models, inclòs l'O1 d'OpenAI, els pugueu demanar que multipliquin dos nombres molt llargs i obtingueu una resposta i la resposta és incorrecta", diu. Les conclusions asseguren que hi ha alguns models que diuen 'No ho sé' o 'No tinc informació suficient per respondre la teva pregunta. I, en aquests moments, totes les empreses d'IA estan treballant dur per reduir les al·lucinacions, i els chatbots desenvolupats per a finalitats específiques, com ara l'ús mèdic, de vegades es perfeccionen encara més per evitar que vagin més enllà de la seva base de coneixement. Però per a les empreses que intenten vendre bots de xat universals, això no és una cosa que normalment voleu oferir als vostres clients.