No havien passat ni uns minuts de l’anunci d’OpenAI que Elon Musk ja s’afanyava a assenyalar el benchmark on Grok supera el GPT-5. ARC-AGI, un benchmark ideat per François Chollet i basat en puzles que intenta mesurar la intel·ligència fora de context. En aquest repte, tots els models (Grok inclòs) obtenen resultats força discrets.
Pair i analitzar les dues noves famílies de models d’OpenAI, el GPT-5 i els models de codi obert GPT-oss ha marcat la setmana. I en tindrem per estona, perquè són models força diferents dels anteriors i és previsible que vagin apareixent noves versions i, per tant, noves anàlisis.
Tot això mentre esperem Gemini 3, el nou model de Google, del qual els leaks apunten que tornarà a pujar el llistó dels benchmarks. Mentrestant, la IA no fa vacances i han passat més coses!
El GPT5 genera tota mena d'opinions
En general, tothom coincideix que el GPT-5 és força millor que el GPT-4, però no extraordinàriament millor. Ara bé, hi ha un punt on ha rebut moltes crítiques. El GPT-5 es basa en un encaminador que dirigeix la teva pregunta a un model més senzill o més complex segons la dificultat que percep.
El problema és que aquest encaminador tendeix a enviar consultes cap a models massa simples, incapaços de resoldre preguntes trivials com ara “què és més gran, 9,9 o 9,11?” (i respondre erròniament 9,11) o comptar el nombre de lletres d’un tipus concret dins d’una paraula.
Això obliga a canviar una mica la manera de preguntar i, en general, l’enfocament a l’hora d’utilitzar el model. GPT-5 pot redirigir a set models diferents: nano, mini, main, thinking-nano, thinking-mini, thinking-pro i, a més, el GPT-4 anterior, que s’ha reincorporat a petició dels usuaris.
Modalitats disponibles:
-Auto. El model decideix a quin submodel enviar la consulta.
-Fast. Respostes ràpides amb models nano o mini.
-Thinking. Raonament estès (compte, tendeix a resumir i eliminar redundàncies).
-Pro. Raonament estès al nivell d’un doctor especialitzat.
-GPT-4. Versió anterior, disponible per demanda.
L’encaminador és la font principal de problemes, però no l’únic canvi. Cal recordar que, si utilitzes models de raonament, els límits són inferiors; si és el model qui decideix, no. Una estratègia és afegir frases com "Pensa-ho bé" per forçar l’ús d’aquests models sense gastar crèdits extra. El GPT-5 busca millorar benchmarks però, sobretot, l’experiència d’usuari.
Això és més evident en l’escriptura: escriu millor, però cal encaminar-lo al model correcte i evitar, si cal, el raonament excessiu. També és molt millor funcionant com a agent: pot executar tasques llargues sense problemes, però necessita instruccions molt concretes i, abans de començar, fa moltes preguntes, cosa que pot resultar feixuga. OpenAI ha publicat una prompting guide força tècnica, més orientada a desenvolupadors que al públic general. Aquí tens un fil amb guia extensa i l’enllaç oficial.
Prompt GPT-5 like GPT-4… and you’re leaving gold on the table.
— Maryam Miradi, PhD (@MaryamMiradi) August 13, 2025
I dug into OpenAI’s new Prompting Guide — here are 𝟰𝟬 game-changing tips & tricks you can steal. ⬇️
𝟭. State task + goal explicitly.
𝟮. Give step-by-step instructions.
𝟯. Include constraints in prompt.
𝟰. Use… pic.twitter.com/05SJIIU0mC
Resum de tècniques útils:
-Impersonar. Definir clarament el rol: “ets un periodista del NYTimes”, “ets un economista famós especialitzat en...” o “un consultor de McKinsey”. El GPT-5 millora molt en aquest aspecte.
-Objectiu clar. Especificar el propòsit i, si cal, el públic destinatari (Un nen de 7 anys, un professor universitari o un lector d’un diari generalista).
-Què vols i què no vols. Si prefereixes evitar bullet points o subapartats, indica-ho explícitament d’una manera molt clara.
-Longitud. Cal indicar-la, perquè tendeix a resumir massa i a treure duplicitats.
-Programació. Especificar si busques eficiència, facilitat d’ús, codi modificable o detecció de bugs.
En programació, el GPT-5 ha fet el salt més gran respecte al GPT-4, situant-se al nivell d’Anthropic 4.1 o superior. No obstant això, hi ha debat sobre si la millora és real o només marginal. A més, el GPT-5 permet personalitzar el to de resposta amb opcions com “xerrameca”, “agut”, “directe”, “encoratjador”, “Gen Z”, “tradicional” o “previsor”, i afegir trets propis. Ho trobareu a “Personalitza el ChatGPT”.
Perplexity vol comprar Chrome
Perplexity, valorada en 15.300 milions d'euros, ha ofert 29.400 milions per adquirir Chrome, el navegador de Google, valorat en 42.700 milions. La proposta s’emmarca en el context del judici antitrust contra Google, que podria acabar obligant-lo a vendre Chrome. Així i tot, aquest escenari no sembla el més probable. Recordem que Perplexity també va intentar comprar TikTok i va mantenir converses amb Meta sobre l’operació.
La setmana en la recerca
1. 'Benchmarks' depenent dels proveïdors de models
AI Lab: Artificial Analysis
Artificial Analysis ha publicat un estudi interessant sobre les diferències de rendiment dels models en diferents benchmarks depenent del proveïdor. Han escollit els models Open Source d’OpenAI i les diferències són molt notables. En el benchmark GPQAx16 va des 78.8% fins a 70.7% i en AIME25x32 van des del 93.3% a 78.3%. Azure i Amazon estan a la cua dels resultats.
We've launched benchmarks of the accuracy of providers offering APIs for gpt-oss-120b
— Artificial Analysis (@ArtificialAnlys) August 12, 2025
We compare providers by running GPQA Diamond 16 times, AIME25 32 times, and IFBench 8 times. We report the median score across these runs alongside minimum, 25th percentile, 75th percentile and… https://t.co/XJmR3izoIw pic.twitter.com/HMqAmwNaUm
2. 'GPT-5 Set the Stage for Ad Monetization and the SuperApp'
AI Lab: SemiAnalysis
Semianalysis ha fet com sempre un excel·lent estudi sobre GPT5 des del punt de vista del model de negoci i la monetització. Val molt la pena.
3. 'Group Sequence Policy Optimization'
AI Lab: Qwen Team, Alibaba
DeepSeek va fer famós el GPRO, una policy de reinforcement learning que millorava les que es feien servir habitualment. Aquest informe presenta el GSPO que és a nivell de seqüència i no a nivell de token i funciona especialment bé en un entorn de Mixture of Experts.
4. 'Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty'
AI Lab: MIT
Quan els models s’entrenen amb Reinforcement Learning (RL) no es penalitzen les respostes que són simplement conjectures o sobre les que es té un nivell de confiança baix. Això sovint porta a al·lucinacions o respostes incorrectes. Aquest informe presenta un mètode per evitar-ho.
Altres notícies
-Claude Sonnet ara té un context d’un milió de tokens.
-Huawei desenvolupa Unified Cache Manager (UCM), que incrementa el rendiment fins a 22x i redueix la latència un 90% fent servir estratègies similars a les de DeepSeek. La bretxa amb Nvidia a poc a poc es va tancant.
-Elon Musk amenaça de portar Apple als tribunals per suposada manipulació del posicionament de Grok a l’App Store.
-OpenAI inverteix en Merge Labs, competidor de Neuralink.
-La Xina demana a les empreses que justifiquin qualsevol compra de xips Nvidia en lloc dels de Huawei (security concerns diuen).
-El xatbot d’Anthropic ja recorda converses passades, com el d’OpenAI.