Setmana IA | El nou agent d’OpenAI pot marcar més d'una dècada

Què és un agent?

Els agents no són una novetat. El concepte ve dels anys 90, o fins i tot abans, i es definia com un programari amb objectius propis que interactua amb el món (el model BDI, per als que vulgueu saber més). Els models de llenguatge han recuperat aquesta idea: ara tenim sistemes amb objectius, capaços d’elaborar plans i fer servir eines per executar-los —des de cercar a la web fins a escriure codi en Python.

OpenAI ja havia desenvolupat agents com o1, o3 i també Operator. El nou agent busca unificar les capacitats de recerca dels primers amb les d’interacció web d’Operator. I aspira a fer tasques com crear fulls de càlcul o presentacions, reservar restaurants o comprar entrades per a concerts.

Aquest és un canvi important, que pot marcar no només una dècada, sinó potser una nova etapa en la nostra relació amb la tecnologia.

ChatGPT Agent

El dimecres 16 (sí, la setmana passada) OpenAI va presentar el seu nou agent. S’assembla a Manus i també als anteriors com o3/o4, però ara pot interactuar amb qualsevol lloc web.

Què pot fer?

Recerca avançada: Pots demanar-li un business plan, una anàlisi de l’estat de l’art d’una tecnologia o la millor opció per desplegar un agent al núvol.
Fulls de càlcul: Els omple, els simula, en crea de nous... encara és bàsic, però ja funcional.
Presentacions PowerPoint: Pot transformar documents en presentacions o fer-ne de noves sobre un tema concret. No és espectacular, però millorarà (i potser Manus encara el supera en aquest aspecte).
Planificació i compres: Des de planificar vacances i buscar el millor preu fins a afegir tots els ingredients d’un Hot Pot o una paella al carro del Bon Preu, amb l’enllaç llest per comprar. Impressionant, encara que el pagament final l’has de fer tu.

És evident que això obre la porta a una web pensada no només per a humans, sinó també per a agents que interactuaran amb altres agents. Caldrà redissenyar webs per fer-les eficients per a ells —agents que, per cert, ignoren totalment la publicitat.

Encara és una versió inicial. No pot fer pagaments directes (encara), i rebutja accions amb risc (com transferències), però això pot canviar aviat.

Val la pena pagar la subscripció Pro per fer-lo servir més temps? Potser encara no. Però no trigarà gaire a justificar-ho.

Una nova frontera

Aquest nou agent d’OpenAI s’assembla a Grok 4 i difereix de Manus en un punt clau: mentre que Manus fa servir eines després d’entrenar el model, Grok 4 i l’agent d’OpenAI les incorporen durant l’entrenament. El resultat? Són molt millors en fer-les servir i també obtenen millors resultats en benchmarks tradicionals. Són models nous, no els que coneixíem.

És una nova frontera que només acaba de començar. Ara tenen poques eines, però això anirà canviant. I amb més eines... més capacitats.

Per cert, OpenAI ja treballa en una funcionalitat de checkout per als productes que es comprin amb l’agent. Un pas obvi cap a la integració vertical i la captura de valor.

L’Open Source és Xinès

Aquests dies també hem vist com han aparegut dos nous models Open Source xinesos, el Qwen 3 d’Alibaba, aquí teniu els resultats:

I el Kimi K2 de Moonshot, aquí els resultats:

Com es pot veure, ambdós models igualen o fins i tot superen el rendiment de Claude Opus 4 i DeepSeek V3. Cada generació millora l’anterior — no és cap novetat — però ara mateix són els models xinesos els que marquen el ritme en l’àmbit de l’Open Source.

Mentrestant, Meta es planteja si continuar invertint en Open Source després de les enormes despeses realitzades; tampoc no tenim notícies d’un model Open Source per part d’OpenAI. És comprensible: si algú llança un model que funcioni tan bé com el GPT-4o, però amb millor rendiment per plantar cara als xinesos, qui comprarà models de pagament?

Tot sembla indicar que l’Open Source acabarà essent majoritàriament xinès, cobrint la demanda d’un mercat que no sempre necessita models extremadament sofisticats.

I Europa? On són els models Open Source europeus? A banda de la manca d’organitzacions amb prou capacitat per competir (es parla que Apple podria adquirir Mistral…), la legislació europea ho fa gairebé impossible.

L’Open Source sembla que serà xinès!

OpenAI i Google: medalla d’or a les Olimpíades Matemàtiques

L’IMO (International Mathematical Olympiad) és la competició més prestigiosa de matemàtiques per a preuniversitaris. Són sis problemes duríssims repartits en dues sessions de 4,5 hores.

Els models de llenguatge hi competeixen des de fa temps, amb resultats modestos. Aquesta vegada, Gemini 2.5 ha aconseguit un 31% i o3 un 16%. Però dos models experimentals —un d’OpenAI i un de Google DeepMind— han resolt 35 de 42 problemes, guanyant la medalla d’or. No és GPT-5. Són models de raonament pur, sense fer servir eines.

I això és important: si ja fan això sense eines, què podran fer quan n’incorporin?

El guanyador humà? Un xinès que va resoldre els 42 problemes. Els tres primers classificats van ser xinesos. Un nivell impressionant.

Aquest és un pas important. Tot i que els models actuals ja són extraordinàriament competents en la resolució de problemes coneguts, encara presenten limitacions quan es tracta de raonar sobre problemes nous o fer descobriments originals.

I això és clau: el gran objectiu és que aquests models siguin capaços d’impulsar el progrés científic i tecnològic per si sols, resolent reptes inèdits i generant noves aplicacions. Si ho aconseguim, estarem davant d’un salt qualitatiu per a la humanitat.

És la porta d’entrada a una nova era: una intel·ligència artificial no només útil per optimitzar processos o generar continguts, sinó capaç de contribuir activament al coneixement i a la innovació.

ATCoder 2025: OpenAI, segon

OpenAI ha quedat segon a l’ATCoder 2025, una de les competicions de programació més exigents del món. Va guanyar Przemysław Dębiak, un programador polonès, però el model d’OpenAI va liderar durant bona part de la competició.

Una prova més que els models de llenguatge estan ja a un nivell extraordinari en programació.

En aquesta mateixa línia, s’han començat a filtrar els resultats d’o3-alpha, l’agent especialitzat en programació d’OpenAI i sembla que són espectaculars.

Uber entra al joc dels Robotaxis

Uber era l’absent en la cursa pels robotaxis. Havia abandonat el desenvolupament propi fa temps, però ara s’ha aliat amb Lucid (vehicles) i Nuro (software). L’objectiu: desplegar 20.000 robotaxis, amb inversions milionàries a ambdues empreses.

Waymo, Tesla, Uber, Baidú, BYD... la cursa està servida. I el futur de la mobilitat urbana canviarà radicalment.

Thinking Machines Lab: l’empresa de Mira Murati

La nova empresa de la CTO d’OpenAI, Thinking Machines Lab, ha aixecat 2.000 milions de dòlars i es valora en 10.000 milions. Què vol fer?

Customitzar models de llenguatge per a empreses, alineant les respostes dels seus chatbots amb els seus objectius i KPIs. Un pas més en la direcció del fine-tuning i de l’optimització empresarial.

El futur pot ser dels agents, sí, però també dels models personalitzats. I aquí, Thinking Machines Lab vol liderar.

Vols saber més dels 'Transformers'?

Per als qui vulgueu aprofundir en les arquitectures de transformers, aquí teniu un gran recurs tècnic de Sebastian Raschka:

🔗 The Big LLM Architecture Comparison

Una gran panoràmica de com hem arribat fins aquí. És una evolució que com totes es fa “on the shoulders of giants”.

Altres notícies

AWS acomiada més treballadors. AWS amb 115.000 empleats no és precisament una empresa petita, però entre les grans inversions en IA generativa i els guanys en eficiència que li ha proporcionat, sembla que necessita menys gent. La propera onada (GPT5 i similar) no només faran codi sinó també enginyeria de software, és a dir que això només acaba de començar. Un exemple d’això és que AWS ha acomiadat al 40% del seu equip de DevOps i l’ha substituït per agents d’IA.
Cursor bloqueja els models americans a la Xina. L’agent de programació més popular impedeix ara l’accés als models americans des de territori xinès, tot i que moltes universitats i hotels mantenen internet lliure.
1 milió de GPUs. OpenAI preveu tenir en línia 1 milió de GPUs abans d’acabar l’any. Una aposta clara per la millora a través d’una inferència massiva.
Apple pot comprar Mistral. Sembla que Apple està en converses amb Mistral i pot acabar comprant-lo.