SETMANA IA | Grok 4 supera les expectatives i és el millor model del mercat

Setmana destacada per a xAI amb l’anunci de Grok 4, un model que ha superat totes les expectatives. Ha marcat un nou màxim en rendiment, posicionant-se com el model més avançat fins avui. Les seves capacitats apunten més enllà de la programació: promet integrar-se en sistemes complexos com la robòtica i la conducció autònoma, anticipant un futur que arriba molt abans del que preveiem. L’anunci ve acompanyat de moviments destacats a l’ecosistema: OpenAI ha contraatacat fitxant quatre enginyers de primer nivell provinents de Tesla, xAI i Meta. El mapa competitiu s’està redibuixant.

Això es tradueix en una redefinició del marc competitiu, una batalla pels horitzontals —com els chatbots i els models base que fan funcionar agents— però sense perdre de vista els verticals: des dels copilots fins a l’educació, el tractament d’imatge i vídeo, que poden redefinir la publicitat i el cinema. La gran incògnita és qui dominarà aquests verticals: ¿els grans models integrant aquestes capacitats? ¿O bé actors especialitzats com Cursor o Perplexity? La resposta condicionarà la dinàmica de la IA en els anys vinents. I mentrestant, NVIDIA arriba als 4 bilions de dòlars de valoració. I segons el que hem vist amb Grok 4, això tot just comença.

Grok 4: el salt endavant de xAI

Elon Musk ha presentat Grok 4 en dues versions: la base i la “Heavy”, aquesta última un sistema multiagent on diversos models col·laboren per resoldre problemes. Els resultats són excepcionals. Grok 4 supera la resta de models en totes les categories, amb una millora significativa en el benchmark Humanity Last Exam (HLE): un test de 2.500 preguntes de gran dificultat. Mentre que un doctor humà obté un 5% i els millors models actuals un 25%-27%, Grok 4 Heavy arriba al 45%. També destaca en veu, amb cinc veus naturals capaces de cantar i respondre amb gran rapidesa. En programació supera lleugerament Claude 4, però s’ha anunciat un model específic per aquesta tasca en poques setmanes.

Quin és el secret?

Grok entrena incorporant eines com la cerca web, la resolució matemàtica o la programació durant l’entrenament, no només a posteriori com és habitual. Aquesta integració profunda fa pensar que encara hi ha molt camí per recórrer, especialment amb més potència computacional (bones notícies per NVIDIA). Pròxims passos: un model especialitzat en programació en setmanes, un model multiagent que competirà amb Manus i OpenAI després de l’estiu, i cap a finals d’any, un generador de vídeo. A mesura que la comprensió i interacció amb el món físic augmenten, aquests models s’aproximen a la robòtica i la conducció autònoma. També podrien revolucionar la ciència mitjançant la generació i testatge massiu d’hipòtesis. Quan costa? 30 dòlars al mes, 300 per la versió Heavy.

Educació i IA: Google i OpenAI enfrontades

Google ha ampliat la seva oferta educativa basada en IA: des de la generació de plans docents fins a presentacions, qüestionaris i tutors personalitzats. També incorpora NotebookLM per pòdcasts, Gems (tutors alineats amb currículums) i Vids per a la generació de vídeo. Tot integrat a Google Classroom, conjuntament amb hardware com Chromebooks. L’objectiu: millorar l’experiència educativa existent tot avançant cap a tutors personalitzats impartint contingut. Els estudis preliminars mostren una gran eficàcia, però encara estem a les beceroles.

OpenAI ha anunciat Study Together, un bot que ofereix aprenentatge personalitzat, actualment limitat a usuaris Plus dels EUA. Aquesta entrada dels grans models en el camp de l’educació contínua pot redefinir l’Executive Education, territori on les grans universitats encara no han entrat de ple, però que plataformes com ChatGPT poden transformar.

La psicologia dels models: col·laboren o competeixen?

Els LLM no tenen psicologia pròpia, però el seu entrenament (RLHF, sft, ift…) els confereix trets de comportament que simulen intencions. Una recerca de Payne (King’s College) i Alloiu-Cros (Oxford) ha provat diversos models en jocs estratègics com el dilema del presoner. Els resultats (https://arxiv.org/pdf/2507.02618) són sorprenents:

Gemini: implacable, explota cooperadors i es venja dels que s’escapen.
OpenAI: extremadament cooperatiu, cosa que el penalitza en entorns hostils.
Anthropic: el més altruista, coopera fins i tot si és explotat reiteradament.

Aquest comportament deriva del fine-tuning i pot variar entre versions. Tot i això, ens ofereix una nova manera d’estudiar els biaixos dels models: a través de les decisions que prenen. En un context en què els agents prenen decisions reals basades en aquests models, el seu comportament social pot ser crític.

Altres titulars destacats

La Xina digitalitza la identitat: El 15 de juliol s’inicia un projecte pioner de digital IDs a la Xina. El sistema garanteix l’anonimat davant empreses, però amb traçabilitat total des del govern. Similar a l’èxit de l'Índia, aquest model podria escampar-se globalment.
IA Act, sense pausa: La UE ha rebutjat una pròrroga demanada per empreses com Meta o Mistral. La norma entra en vigor el 2 d’agost de 2026, amb un període transitori fins al 2027. Tot i això, l’escenari polític europeu pot portar canvis.
Apple destapa la caixa dels trons successòria: Jeff Williams, COO d’Apple, es retira. Sempre havia sonat com a successor de Tim Cook. Ara s’obre una nova etapa a la cúpula de la companyia.
Tesla i els robotaxis: Estrena a Austin amb el Model Y i conductor de seguretat. Waymo arriba a Nova York. Els sistemes funcionen amb teleoperadors remots. Encara que les expectatives eren altes, l’escala és lenta, però consistent. El futur serà autoconduït, sí, però pas a pas.

Més