Fins avui, tota intel·ligència artificial (IA) va ser una espècie de mirall. Un mirall sofisticat, precís, fins i tot encantador. Però mirall a la fi. Li vam donar milions de textos, converses, preguntes i respostes, codi font, problemes matemàtics, fórmules químiques, teories filosòfiques entre petabytes de material. I el model va aprendre a imitar-nos, a reorganitzar, a remesclar, a predir el que segueix. Va aprendre a dir el que diríem nosaltres. A resoldre|decidir el que ja havíem resolt. A copiar els nostres jocs, i jugar-los amb més eficiència.
Però això té un límit. Perquè, per més potent que sigui el motor, si el combustible és sempre humà, el viatge no podrà anar més enllà del que hàgim assolit. El nou model presentat per un grup d'investigadors de la Universitat Tsinghua a Beijing —i anomenat Absolute Zero Reasoner (AZR)— trenca aquesta lògica. Ja no és un mirall. És, per primera vegada, un generador autònom de pensament. Aprèn sense que ningú l'ensenyi. No descarrega milions d'exercicis matemàtics. No necessita que un ésser humà li digui què fer. El decideix sol.
"El model inventa tasques"
I no és una metàfora. El model, literalment, inventa tasques. Es proposa desafiaments. Prova resoldre'ls. Resol, aprèn i ajusta. Torna a intentar; ho fa una vegada i una altra, amb paciència i rigor. I cada iteració ho fa millor. No perquè algú el corregeixi, sinó perquè es corregeix a si mateix. No perquè memoritzi, sinó perquè raona. La màquina proposa un joc, ho intenta jugar, verifica el resultat i —en funció d'això— ajusta la seva manera de pensar. Aquest és un canvi de paradigma.
El model compleix dos rols, d'una banda, és proposador, el que dissenya el problema; per un altre és solucionador, el que l'enfronta. I enmig hi ha un entorn que actua com a àrbitre: una espècie de calculadora o executor que li diu si el resultat va ser correcte. És a dir, el sistema s'entrena en un cicle tancat on la IA ja no necessita dades humanes. Només necessita una estructura mínima que li permeti provar si el que va fer funciona o no. I això, en termes computacionals, és gairebé trivial. Un intèrpret de codi, un motor lògic, un validador matemàtic són eines que existeixen fa dècades.
La IA ja aprèn sense nosaltres
L'extraordinari és el que passa amb aquest cicle tancat. Perquè després de moltes rondes d'entrenament, aquest model, que mai no va veure un problema humà, acaba resolent millor que altres models tasques dissenyades per persones. Proves de programació, desafiaments matemàtics, exercicis de lògica formal. El que altres models aconseguien després de veure milers d'exemples, AZR ho aconsegueix simplement jugant contra si mateix. I això té conseqüències profundes.
La primera és evident: per primera vegada, una IA aprèn sense nosaltres. No està limitada per la nostra capacitat de generar contingut. No fa falta que l'ensenyem més. Pot aprendre per interacció amb un entorn lògic que ni tan sols entén: només necessita saber si el que va fer va funcionar.
Però la segona conseqüència és encara més interessant. Perquè, fins ara, tot el progrés de la IA era una cursa cap a l'eficiència. Ser més ràpid: processar més text, creuar més variables, resumir millor, generalitzar amb menys dades. Optimitzar. AZR no busca optimitzar. Busca crear. El seu objectiu no és fer millor el que nosaltres ja vam fer, sinó avançar pel seu compte. Cada vegada que s'enfronta a una nova tasca, no sap si podrà resoldre-la. El seu motor no és l'eficiència, és la possibilitat. La possibilitat de descobrir, de provar, d'equivocar-se, de millorar.
I allà passa una cosa inesperada: el que aprèn no és el que nosaltres ja sabíem. Aprèn una altra cosa. Una manera nova de raonar que no està construïda sobre les nostres limitacions. Perquè si hi ha una cosa que les grans IAs actuals hereten de nosaltres és justament això: els nostres biaixos, les nostres omissions, les nostres estructures mentals. Els donem el que sabem. Per tant, no poden saber més que nosaltres. Potser ho diuen millor, potser ho organitzen millor, però no poden saber cap altra cosa.
Coneix alguns models
AZR sí. AZR no parteix del conegut. Part de zero. D'un buit formal. La seva única guia és la lògica interna de les tasques que s'inventa. No hi ha context humà ni cultural. Només hi ha estructura i resultat. I això li permet pensar des d'un altre lloc. Potser això marca el començament d'una bifurcació. Perquè en un futur pròxim, els grans models es dividiran en dues categories. D'una banda, les IAs entrenades amb humans, per a humans, sobre humans. Models que ens imiten, que ens completen i acompanyen. I per un altre, models com AZR, que no necessiten aquesta base. Aquests exploren camins no humans que inventen jocs i els juguen. Així, descobreixen regles que no es van ensenyar i per tant, pensen des d'una lògica diferent.
Fins i tot existirà una arquitectura dual. Una intel·ligència que inventa els problemes. I una altra, diferent, que els resol. Una ment creadora i una ment executora. Com si el pensament mateix se separés en dues funcions, cada una amb el seu propi mode d'aprenentatge. No és així com funcionem nosaltres, en certa manera? No hi ha en nosaltres una part que imagina i una altra que concreta? Però tornem al que ja està passant. AZR ja va aconseguir el que semblava impossible: superar en tasques reals models entrenats amb dades reals, sense haver-ne vist mai un de sol d'aquestes dades. Això ja és un fet. Ho va fer en proves de programació, ho va fer en raonament lògic, i en matemàtica avançada. El va assolir sense ajuda, sense exemples i sense mestres.
Investigadors xinesos van publicar l'article, alguns, associats amb universitats nord-americanes. Encara no va ser replicat per altres equips. I, com passa moltes vegades amb avenços radicals que provenen de centres no anglosaxons, tarden a guanyar legitimitat internacional. Però els resultats són allà. I si es confirmen, canvien les regles del joc. Perquè a partir d'ara, la pregunta no és què pot aprendre la IA de nosaltres.
La pregunta és què pot aprendre sense nosaltres, i què podem aprendre nosaltres de la IA. Les coses com són