Aquesta ha estat la setmana d’OpenAI. Han presentat dos models GPT 5 i GPT-oss. Cap dels dos ha defraudat. Primer OpenAI va presentar el seu model Open Source, o més ben dit, Open Weights. Es tracta d’un model excel·lent, encara que limitat, que ens va fer pensar com serà el pròxim GPT-5 si aquest ja funciona tan bé com o3-mini/o4-mini.
Us preguntareu per què OpenAI treu un model Open Source. La resposta és relativament senzilla: si els models oberts existeixen, millor que siguin els seus. Efectivament, és un punt d’entrada a la família de models d’OpenAI. Els ingressos vindran tant de l’ús directe (el cas de ChatGPT) com dels agents que faran servir aquests models per acomplir les seves tasques. Per tant, dominar l’espai amb una única interfície és sens dubte important, com també ho és ampliar encara més el mercat intentant que tothom adopti aquests models.
I òbviament també hem de considerar els motius altruistes i socials —perquè les empreses comercials també en tenen, no només les nonprofit o les públiques pagades amb impostos. Després han presentat GPT 5, un model que certament ho fa millor en tot, però on s’ha posat més èmfasi és en la interacció, tant amb els usuaris com en termes de seguretat i sobretot amb els programadors. El seu comportament és el de l’ajudant expert que sempre has volgut tenir, amb un doctorat i d’una bona universitat.
Tenim el contraatac d’Anthropic. També la resposta a una pregunta difícil: per què Meta gasta tants diners en IA i paga els sous i les bonificacions que paga? Sens dubte, una setmana que ha donat molt de què parlar!
El model GPT5
Només puc dir que m’ha deixat impressionat. Arriba un punt en el qual els benchmarks serveixen de poc, perquè estan saturats, segurament cal inventar-ne de nous perquè aviat bona part dels models arribaran al 100%. El GPT 5 ho fa millor, sí, molts pensàvem que a partir d’ara la millora seria incremental i no és el cas. Hi ha corda per molta estona.
GPT 5 evals 👇👇👇 pic.twitter.com/DvV148VTSL
— esteve almirall (@ealmirall) August 7, 2025
Però és un model que busca ser el teu ajudant, busca ser el millor company de treball possible per tu, especialment en desenvolupament de programari, a on se situa com el millor model del mercat.
GPT 5 coding 👇👇👇 pic.twitter.com/xVJJYUb7hy
— esteve almirall (@ealmirall) August 7, 2025
Però també amb altres tasques com escriure, a on és capaç de capturar el que vols escriure i com ho vols escriure. Si creus que els models d’OpenAI escrivien bé, espera a veure el GPT 5.
GPT 5 👉 writing 👇👇👇 pic.twitter.com/AbBklGgZIY
— esteve almirall (@ealmirall) August 7, 2025
El model busca comportar-se com el teu assistent i pot accedir al teu calendari, ordenar-te cites i en definitiva ser el teu agent personal. En aquest aspecte s’ha posat molt èmfasi en els temes de seguretat, ja no contesta negant-se a fer coses sinó que explica el perquè no contesta.
També han treballat de manera molt especial el seu ús en camps com la medicina, la biologia, les lleis, les finances i també en recerca científica, a on sembla que obrirà portes fins ara inèdites. Però a on ha millorat moltíssim és en el seu ús per fer agents, on tens molt més control. També ha millorat molt la seva interacció amb veu que ara no té limitacions de durada i pensen que pot ser molt útil en educació.
On brilla realment és fent codi. Michael Truell, el CEO de Cursor (l’eina estrella per fer codi) ha presentat part de l’apartat de codificació i ha declarat que era el millor model que mai havia vist per codificar. Les demostracions de codi han estat espectaculars, no només construint front-ends, sinó especialment trobant errades en grans bases de codi i arreglant-los solet. Aquí teniu el nou rànquing dels models.
OpenAI gave us early access to GPT-5: our independent benchmarks verify a new high for AI intelligence. We have tested all four GPT-5 reasoning effort levels, revealing 23x differences in token usage and cost between the ‘high’ and ‘minimal’ options and substantial differences in… pic.twitter.com/TcabsFdycG
— Artificial Analysis (@ArtificialAnlys) August 7, 2025
El model està disponible a tots els usuaris d’OpenAI, inclosos els gratuïts. OpenAI ha alliberat el seu model Open Source, GPT-oss, en dues versions: una de 120b (117B de paràmetres) i una de 20b (21B de paràmetres). Si el vols instal·lar localment, pel de 120b necessitaràs 80GB, mentre que pel de 20b només 16GB.
El seu rendiment és comparable a o3-mini i igual o millor que o4-mini. Les dues versions fan servir una arquitectura Mixture of Experts (MoE) molt frugal: el de 120b activa només 5.1B de paràmetres per token, i el de 20b n’activa 3.6B. És a dir, tindràs un rendiment molt bo en local.
Els models han estat entrenats amb un dataset bàsicament en anglès, i estan focalitzats en coneixement general, STEM i programació. No són multimodals, només text. Tot i això, els desenvolupadors tenen un marge ampli de maniobra. Poden seleccionar el nivell d’esforç del model o fer servir eines.
We released two open-weight reasoning models—gpt-oss-120b and gpt-oss-20b—under an Apache 2.0 license.
— OpenAI (@OpenAI) August 5, 2025
Developed with open-source community feedback, these models deliver meaningful advancements in both reasoning capabilities & safety.https://t.co/PdKHqDqCPf
gpt-oss-120b matches OpenAI o4-mini on core benchmarks and exceeds it in narrow domains like competitive math or health-related questions, all while fitting on a single 80GB GPU (or high-end laptop).
— OpenAI (@OpenAI) August 5, 2025
gpt-oss-20b fits on devices as small as 16GB, while matching or exceeding… pic.twitter.com/Zn2wDiWcNb
Us preguntareu com es comparen amb altres models Open Source. Ho fan una mica pitjor que Alibaba Qwen o DeepSeek R1, però per ben poc. El model petit funciona sorprenentment bé.
Independent benchmarks of OpenAI’s gpt-oss models: gpt-oss-120b is the most intelligent American open weights model, comes behind DeepSeek R1 and Qwen3 235B in intelligence but offers efficiency benefits
— Artificial Analysis (@ArtificialAnlys) August 6, 2025
OpenAI has released two versions of gpt-oss:
➤ gpt-oss-120b (116.8B total… pic.twitter.com/0mLCKh05MY
Ara bé, pel que fa a la relació entre cost i rendiment és immillorable.
Pricing: Across the API providers who have launched day one API coverage, we’re seeing median prices of $0.15/$0.69 per million input/output tokens for the 120B and $0.08/$0.35 for the 20B. This makes both gpt-oss models highly cost efficient options for developers. pic.twitter.com/8ABs0JTuw9
— Artificial Analysis (@ArtificialAnlys) August 6, 2025
Pel que fa al nombre de paràmetres, és el model més intel·ligent que cap dins d’una H100.
Intelligence vs. Total Parameters: gpt-oss-120B is the most intelligence model that can fit on a single H100 GPU in its native precision. pic.twitter.com/kzBxXOGC6V
— Artificial Analysis (@ArtificialAnlys) August 6, 2025
En resum. Bons models, en línia amb els millors Open Source i comercials. Amb una relació entre cost i rendiment excel·lent, prou petits per executar-se in-house. Però no són multimodals, cosa que limita força les seves funcionalitats. Per la seva banda, Anthropic ha tret una millora del seu model Claude Opus: la versió 4.1. Hi ha actualitzacions en temes d’agents, raonament i programació.
Today we're releasing Claude Opus 4.1, an upgrade to Claude Opus 4 on agentic tasks, real-world coding, and reasoning. pic.twitter.com/25vh0b3FsX
— Anthropic (@AnthropicAI) August 5, 2025
El pla secret de Meta
Mark Zuckerberg ha concedit una entrevista a The Information, on ha desgranat els plans de Meta. El motiu central de la seva reacció no és que els resultats de Llama4 siguin dolents (que potser també), sinó la convicció generalitzada que tindrem AGI en cinc o set anys com a molt. Segons ell, això vol dir que cal actuar com si fos d’aquí a dos o tres anys.
La raó no l’explica, però és evident. Tot sempre triga més del previst i si tu ets el primer tindràs temps d’equivocar-te, rectificar i aconseguir avantatges competitius que els altres no podran ni somiar.
Com fer-ho sembla obvi. Depèn del talent. Per tant, cal construir un equip tan bo com sigui possible. Aquesta és la raó per la qual ha creat el super-intelligence team. Quan li pregunten per què aquests sous tan elevats i si són sostenibles, ell respon que aquests equips són en realitat molt petits (cert, l’equip que va guanyar l’olimpíada matemàtica era de 3 persones a OpenAI, i similar a Google). Per tant, el cost total no és tan gran.
Un tema clau en la contractació és la proposta. En aquest cas és doble: treballar en el millor equip del món i fer-ho amb els centres de càlcul més grans del món. Això et dona un clar avantatge, gairebé la garantia que seràs rellevant.
Finalment, el tema més important: què faran?
La resposta és clau. No es tracta de perseguir l’AGI o de construir els millors agents per a empreses. Es tracta de la gent. Volen transformar la vida i les relacions personals amb dues innovacions: IA generativa i ulleres hologràfiques. Parlem, doncs, d’oci, assistents personals, creixement personal i relacions socials.
Una reflexió important. Aquestes dues tecnologies són com les ulleres per a qui té problemes de visió. Ningú renunciarà a tenir-les! Potser després d’aquesta entrevista s’entén millor el que està passant.
El 'Wide Research' de Manus
Manus ha presentat una versió millorada del seu agent. Ara és capaç d’activar fins a 100 subagents. Això té implicacions importants en termes de velocitat —funciona molt més ràpid que el d’OpenAI, per exemple— però també pel que fa a la diversitat de tasques que poden complir.
Per exemple, si li encarregues fer 100 anuncis diferents d’un mateix acte, et trobaràs amb 100 resultats realment diferents, perquè han estat generats per agents diferents que no comparteixen context. També han millorat les sortides en fulls de càlcul, web o presentacions. Ara per ara, és el millor agent generalista del mercat.
Introducing Wide Research pic.twitter.com/Hm1c3rTGrV
— ManusAI (@ManusAI_HQ) July 31, 2025
Lyft, Europa i Baidu
Lyft ha arribat tard a Europa i al món dels robotaxis, però sembla que s’està posant les piles. Com sabeu, va comprar FreeNow i ara és present a Europa i també a Espanya. Doncs bé, l'empresa ha arribat a un acord amb Baidu per integrar els seus robotaxis a l’aplicació de Lyft fora de la Xina i dels Estats Units. Qui sap si aviat veurem robotaxis de Baidu a Espanya i a Barcelona!
Compensacions milionàries a Microsoft
S’han filtrat els salaris i compensacions a Microsoft, segurament com a resposta a la pressió de Meta. Després de 30 anys, un enginyer pot arribar a retirar-se amb uns estalvis acumulats de fins a 11 milions d'euros, cosa que, retirant-ne un 4%, li permetria disposar de 445.000 euros anuals.
Microsoft just leaked their official compensation bands for engineers.
— Deedy (@deedydas) July 31, 2025
We often forget that you can be a stable high-performing engineer with
great work-life balance, be a BigTech lifer and comfortably retire with a net worth of ~$15M! pic.twitter.com/XL64X3pHUc
El projecte Stargate Norway
OpenAI ha arribat a un acord per construir Stargate Norway, el centre d’IA més gran d’Europa, amb 100.000 GPUs Nvidia i un consum de 230 MW. Entrarà en servei el 2026, funcionarà al 100% amb energia verda (hidroelèctrica d’una gran central propera) i donarà servei al nord d’Europa i al Regne Unit. Utilitzarà refrigeració líquida en circuit tancat directament sobre les GPUs, i la calor sobrant s’aprofitarà per alimentar empreses de la regió. Tot un exemple de com construir centres d’IA amb un impacte ambiental mínim.
En un altre ordre, Grok ha presentat Grok Imagine, la seva proposta de text-to-video que, com el Veo3 de Google, incorpora imatge i so. Pot generar fins a sis minuts de vídeo i també permet editar-los. Estarà disponible pels comptes Super Grok (25 euros mensuals) i la disponibilitat general arribarà a l’octubre.
Com pot la Xina guanyar als EUA en IA?
Andrew Ng ha publicat un post interessant sobre les possibilitats reals de la Xina en comparació amb els Estats Units en la cursa per la IA. Els arguments no són nous, s’assemblen molt als que ja hem escoltat en debats sobre l’estratègia IA+ xinesa, de Jei Tang (Tsinghua) i d’altres. La Xina domina clarament en models Open Source i té el context a favor seu.
La velocitat és clau en el creixement, perquè determina també la velocitat a la qual s’innova. Als Estats Units, en canvi, els models tancats depenen de descobrir els secrets d’aquests nous desenvolupaments, cosa que implica contractar investigadors a preus molt elevats. Això no només és car, sinó també lent.
També hi ha diferències en hardware. A Occident tenim el GB200 NVL72, mentre que Huawei ofereix el Cloud Matrix 384. Els xips de Huawei individualment tenen una tercera part de potència i consumeixen quatre vegades més, però a nivell de rack són força equivalents. El consum, això sí, és més alt, però la Xina és líder mundial en renovables i no té problemes energètics com els Estats Units o Occident.
Mentrestant, a la Xina tot flueix amb més llibertat i velocitat. Si mantenen aquest context podrien guanyar fàcilment als Estats Units. Hi ha un segon vector clau: la captura de valor prové de l’adopció de la innovació. Una economia dinàmica basada en codi obert pot facilitar molt l’adopció generalitzada. Ja ho veiem: molts cotxes i robots xinesos ja incorporen interfícies amb DeepSeek, mentre que a Occident només Tesla l’ha integrat amb Grok. Europa ni hi és ni se l’espera. Ni tan sols es menciona a l’article.
El més destacat en la recerca
Aquests són els dos papers que acompanyen el llançament del model Open Source d’OpenAI. El primer explica en detall com està construït el model. El segon descriu els mètodes que s’han utilitzat per estimar i minimitzar els riscos dels models Open Weight d’OpenAI.
Steven Willmott, un bon amic que escriu una de les millors newsletters del camp, ens proposa aquest paper sobre models jeràrquics de raonament. Hi ha molt interès i molta recerca al món post-transformer, i aquest n’és un bon exemple.
Es tracta d’un model inspirat en el funcionament del cervell humà, que fa servir dos mòduls recurrents. Un per a la planificació a alt nivell (més abstracta), i un altre per a la de baix nivell. El que el fa summament interessant és que requereix molt pocs exemples (només 1.000), és petit, podria ser fins a 100 vegades més eficient que els transformers actuals i funciona extraordinàriament bé en problemes abstractes: ARC-AGI 40.3%, Sudoku-Extreme 55%.
Altres notícies
- Future Era, una botiga de Shenzhen, ja ven robots modulars: pots muntar el robot que més t’agradi.
- Apple ha experimentat el creixement d’ingressos més important des del 2021, amb un augment del 10%; les vendes d’iPhones han crescut un 13%.
- El BSC ha enviat a producció el processador Cinco Ranch RISC-V, que serà fabricat per Intel.
- TSMC ha acomiadat diversos empleats acusats d’espiar per a la Xina. Han estat detinguts pel govern de Taiwan.
- Apple també està treballant amb Brain-Computer Interfaces: recentment s’ha publicat un vídeo on un iPad és controlat pel cervell mitjançant un implant inserit per un catèter a la vena jugular.
- Reflection AI, una empresa emergent fundada per investigadors de DeepMind, ha aconseguit 860 milions d'euros. Vol competir en el mercat Open Source, ara dominat per la Xina.
- Gemini 2.5 Deep Think, el model que va guanyar la medalla d’or a l’olimpíada de matemàtiques, ja està disponible per als usuaris de Gemini Ultra.
- Els usuaris de pagament d’OpenAI ja arriben als 5 milions. L’empresa espera assolir uns ingressos anuals recurrents de 17.100 milions d'euros abans d’acabar l’any.
- Sembla que Apple ha creat un grup anomenat Answers, Knowledge and Information amb l’objectiu de construir una eina tipus ChatGPT que reculli informació de la web i s’integri amb Siri, Safari i altres productes.