Aquesta ha estat la setmana d’OpenAI. Dilluns va tenir lloc el Dev Day, el dia dedicat als desenvolupadors, una de les cites més esperades de l’any per l’empresa. OpenAI hi va presentar tres grans novetats relacionades amb agents: un per al públic general i dos orientats a desenvolupadors. I, com era d’esperar, també va parlar de Sora 2, el seu model de vídeo.
OpenAI treballa amb dues grans visions. La primera: crear un agent personal i professional que ens ajudi en tot, des de comprar a Amazon o planificar un viatge I donar consells laborals o respondre preguntes quotidianes. La segona: aconseguir el científic universal, un agent capaç de descobrir de manera autònoma tot allò que la humanitat necessita saber.
Per fer-ho, l’empresa ha hagut d’abordar reptes que potser mai havia volgut assumir, com construir una infraestructura de computació sense precedents. I també ha desenvolupat allò que sí que somiava: el millor programador automàtic que mai hem vist, capaç de treballar sense descans. Aquestes dues fites ja són una realitat: OpenAI ha tancat acords per disposar d’una infraestructura informàtica sense comparació, i ja compta amb agents que programen i revisen codi durant hores sense intervenció humana.
Tot això sorgeix dels transformers, una tecnologia presentada modestament per Google el 2017 que ha acabat transformant la IA. El punt d’inflexió va arribar amb el model o1 d’OpenAI, el veritable GPT-4, que va obrir la porta als models de raonament, capaços de millorar les seves respostes no només durant l’entrenament sinó també en temps real.
Avui aquests models competeixen amb matemàtics i programadors experts, descobreixen biomarcadors i proposen noves molècules. De moment, no es veu el final: més potència de càlcul continua traduint-se en models més capaços. D’aquí ve la cursa frenètica actual. El futur? La recerca actual, els transformers, arribarà a un límit, però molts creuen que els pròxims models podran fer avançar la ciència creant noves generacions de sistemes intel·ligents. No hi haurà un moment de “singularitat” sobtat, sinó un procés gradual, però transformador que canviarà el món tal com el coneixem. La carrera dels centres d’IA no s’atura, Sam Altman ha declarat que després de Stargate, Oracle, Nvidia i AMD, OpenAI anunciarà encara més acords.
Tres grans novetats: Apps SDK, AgentKit i Codex, a més d’altres anuncis menors. La més destacada és Apps SDK, que permet interactuar amb aplicacions directament des de ChatGPT. Per exemple, pots reservar un hotel a Booking demanant a ChatGPT que cerqui el més proper al centre amb les millors valoracions, o consultar cursos a Coursera i preguntar detalls de les lliçons.
Avui només hi ha unes poques aplicacions, però OpenAI espera multiplicar-les aviat. En un futur pròxim, podríem veure cerca intel·ligent a Amazon o tràmits administratius sense burocràcia, gràcies a un copilot que entén i actua per nosaltres. Aquesta funció no només amplia les capacitats de ChatGPT, sinó que també obre una nova via de monetització i consolida OpenAI com a plataforma tecnològica més enllà de la web tradicional.
El segon anunci, AgentKit, permet crear agents d’una manera més intuïtiva. Tot i que ja existeixen plataformes similars (Zapier, Make, n8n), aquesta versió està més pensada per a desenvolupadors. Molts esperaven una eina més visual i accessible amb llenguatge natural i no una interfície gràfica que es veu antiga, però l’interès d’AgentKit rau en la possibilitat d’integrar codi Python en qualsevol entorn, ara bé, no ho posa massa fàcil. Esperem que evolucioni ràpid.
Finalment, OpenAI va anunciar millores a Codex, el seu agent per a programadors, que competeix amb Cursor, líder actual del sector. També va presentar noves llibreries de veu i la disponibilitat de Sora 2 i GPT-5 Pro per a desenvolupadors. Codex està evolucionant molt ràpidament i és ben possible que passi per davant de Cursor aviat. En resum: Apps SDK pot canviar com aprenem, comprem o interactuem amb la xarxa, mentre que AgentKit i Codex consoliden el paper dels agents en el desenvolupament tecnològic.
Figure AI, el robot que fa les feines de casa
L’empresa americana Figure AI ha presentat el seu nou robot, Figure 03, capaç de plegar roba, posar plats al rentaplats o fer de cambrer. Amb 1,68 metres d’alçada i una capacitat de càrrega de 20 kg, pot treballar durant cinc hores seguides. El seu gran avantatge és Helix, un programari que utilitza models de llenguatge multimodals per comprendre i adaptar-se a cada tasca. Està pensat per a sectors com la restauració, la neteja i l’atenció a persones grans. Els primers exemplars es preveuen per al 2026.
Gemini Enterprise, la plataforma de Google
Google respon a la cursa dels agents amb Gemini Enterprise, una plataforma que porta la IA al cor de les empreses. Permet crear assistents sense saber programar, connectats a Box, Microsoft 365 o Salesforce, amb un sistema de seguretat (Model Armor) que evita filtracions de dades. Els usos pràctics són immediats: equips comercials que reben resums automàtics de clients, serveis d’atenció que generen respostes a partir de documents o departaments de finances que poden activar processos directament des del xat. És la resposta de Google en un espai on OpenAI i Microsoft ja competeixen fort, i on la batalla pels agents corporatius tot just comença.
La recerca en IA
Less is More: Recursive Reasoning with Tiny Networks
AI Lab: Samsung SAIL Montréal
Un nou model d’intel·ligència artificial, Tiny Recursive Model (TRM), ha demostrat que, amb molts menys recursos, pot resoldre millor problemes complexos que molts models gegants actuals. Inspirat en el cervell humà, utilitza només dues capes i set milions de paràmetres, una fracció ínfima dels grans models, però supera sistemes com DeepSeek o Gemini en reptes com el Sudoku o la resolució de laberints. Aquesta recerca demostra que la potència de la IA no depèn només de la mida, sinó de com raona i aprèn.
Altres notícies
- Sora 2 supera el milió de descàrregues, per davant fins i tot de ChatGPT.
- L'entrevista d’a16z a Sam Altman revela gran part de la visió d’OpenAI sobre el futur de la IA —imperdible.
- Tesla presenta el FSD 14.1, la nova versió del seu sistema de conducció autònoma, més suau i natural en aparcaments i trajectes urbans.
- Tesla també ha venut més cotxes que Mercedes-Benz per primera vegada a la seva història.
- Google llança Gemini 2.5 Computer Use, capaç d’interactuar plenament amb pàgines web: un pas més cap als agents web autònoms.
- OpenAI i AMD tanquen un acord per construir una infraestructura de 6 GW amb GPUs AMD, similar al recent acord amb Nvidia.