Google va ser la pionera a inventar la intel·ligència artificial generativa, però la recerca d'OpenAI va ser qui realment la va fer útil per al gran públic. Tot i que Google ha invertit una gran quantitat de recursos tant en models d'imatge com de llenguatge, els seus productes, malgrat ser molt competents, mai no havien aconseguit situar-se al capdavant. Doncs bé, aquest moment ha arribat. El llançament de Gemini 3, tot i ser discret, ha inundat xarxes socials i plataformes de vídeo amb anàlisis i proves per part dels primers usuaris.

Ja s'han publicat els resultats dels benchmarks, que no deixen cap dubte: ara per ara, Gemini 3 és el millor model d'IA. Però les notícies no acaben aquí. Aquesta setmana també hem vist l'anunci, possiblement de gran transcendència, del Projecte Prometheus de Jeff Bezos. Si algú pensava que la IA Generativa havia assolit un sostre i començava a estancar-se, aquesta setmana ens confirma que la competència i la innovació estan més vives que mai.

Gemini 3, un nou llindar de rendiment

Gemini ja és una plataforma massiva, amb més de 650 milions d'usuaris i 13 milions de desenvolupadors utilitzant-la per crear agents. Gemini 3 s'ha posicionat com el millor model disponible segons l'Artificial Intelligence Analysis Index, un índex que combina diversos indicadors. L'agent de Google assoleix el primer lloc en cinc dels deu components de l'índex. Destaquen especialment els seus resultats en la mesura de coneixements profunds, com ara el test Humanity’s Last Exam, on obté qualificacions molt altes, i les seves capacitats argèntiques, que han millorat de manera substancial, sobretot en la programació (assolint el 56% en SciCode). També cal remarcar la seva funcionalitat multimodal, que inclou la capacitat de processar vídeo, àudio, imatge i, òbviament, text.

Una de les característiques tècniques més importants és la seva velocitat. És significativament més ràpid que rivals com GPT-5.1 (versió high), Grok 4 o Kimi K2 Thinking, un fet que suggereix que utilitza una arquitectura de model de grans dimensions com el tipus MoE (Mixture of Experts). Aquesta complexitat té beneficis i inconvenients. D'una banda, ofereix uns resultats de precisió impressionants. De l'altra, els seus resultats en la gestió de les al·lucinacions (generar dades falses) són notablement inferiors, un camp on Claude 4.1 i GPT 5.1 continuen sent els models líders.

A més, és un dels models més costosos d'operar. Un dels aspectes més significatius és la seva millora en la comprensió del món real. Aquest coneixement és cada cop més crucial a mesura que la IA es fusiona amb la robòtica i els sistemes físics. Això ha comportat una millora molt gran en rànquings on la clau és trobar patrons i dibuixos, com l'ARC-AGI-2, on aconsegueix un salt qualitatiu sorprenent.

En definitiva, estem davant d'un salt de gegant per part de Google, que estableix un nou punt de referència en la competició. De moment, les inversions fetes a Meta no semblen donar resultats concloents. Ara caldrà veure quina serà la resposta d'OpenAI, Grok i els models xinesos davant d'aquest nou desafiament. El que és indubtable és que aviat tindrem agents autònoms capaços de treballar sense interrupcions durant períodes extensos.

Prometheus, l'agent enginyer

Prometheus és el nou projecte de Jeff Bezos, on ell mateix tindrà un paper executiu juntament amb Vik Bajaj. L'empresa ha aconseguit capturar talent d'elit d'OpenAI, DeepMind i Meta, reunint prop de 100 enginyers d'alt nivell. El projecte ha aconseguit una inversió de 6.200 milions de dòlars. L'objectiu és clar: crear un agent capaç de fer experimentació i solucionar problemes complexos en el món real. Això inclou reptes d'enginyeria aeroespacial, vehicles autònoms, logística i disseny d'ordinadors.

La intenció és construir un agent d'IA que pugui augmentar i, eventualment, substituir les capacitats d'enginyers experimentats, portant les empreses de Jeff Bezos a un nivell de desenvolupament sense precedents. Aquesta no és una idea aïllada; de fet, s'ha convertit en el nou focus de les empreses emergents més brillants de Silicon Valley: desenvolupar agents que actuïn com a investigadors i enginyers i que puguin interactuar amb productes reals. Això els permetria competir basant-se en la innovació, superant les limitacions actuals del talent humà. L'objectiu final és crear un món on algunes empreses disposin de talent d'investigació i enginyeria d'alt nivell il·limitat.

La IA a la recerca

Kosmos 
AI Lab: Edison Scientific 

Un agent que fa ciència és un programa informàtic avançat, com un assistent virtual, dissenyat per ajudar o dur a terme tasques de recerca científica. Aquests programes utilitzen models d'intel·ligència artificial per processar grans quantitats de dades, com ara articles, experiments o resultats d'anàlisis. La seva funció principal és poder sintetitzar aquesta informació, detectar patrons, formular hipòtesis i, fins i tot, dissenyar nous experiments. Actuen com un soci col·laborador que pot fer de forma automàtica moltes de les tasques d'anàlisi i recerca que, d'una altra manera, requeririen mesos de feina d'un científic humà.

SIMA 2 – An agent that plays, reasons, and learns with you in virtual 3D worlds
AI Lab: Google DeepMind

SIMA 2, impulsat per Gemini, és un nou agent d'intel·ligència artificial dissenyat per operar en jocs 3D comercials i generats per IA. Aquest agent utilitza la seva capacitat de "veure" la pantalla i controlar el joc mitjançant un teclat i ratolí virtuals. A diferència de les versions anteriors, SIMA 2 és notablement més autònom: pot establir els seus propis objectius, explicar els seus plans i generalitzar habilitats a través de diferents jocs. A més, continua millorant constantment gràcies a l'autojoc en entorns virtuals diversos.

Altres Notícies

  • Anthropic, Microsoft i Nvidia han anunciat una aliança estratègica en què Anthropic es compromet a adquirir 30.000 milions de dòlars en computació i en serveis de Microsoft Azure, mentre que Microsoft escalarà la seva infraestructura fins a 1 GW.
  • La valoració d’Anthropic ja se situa al voltant dels 350.000 milions de dòlars.
  • NotebookLM ara és capaç d’entendre apunts manuscrits, fotografies i esquemes, consolidant-se com una eina d’aprenentatge imprescindible.
  • Nano Banana 2 està a punt de sortir.
  • Grok ha presentat la seva actualització Grok 4.1, centrada sobretot a millorar la interacció amb l’usuari.
  • OpenAI està testant converses de grup a ChatGPT.
  • Elon Musk podria obtenir fins a 1.000 milions de dòlars si guanya la demanda contra OpenAI.
  • Grok 5 no arribarà fins a l’any vinent.
  • Alibaba ha negat públicament que la seva tecnologia doni suport a l’armament o infraestructures militars xineses. Així i tot, la comunitat internacional ha rebut la declaració amb escepticisme, i costa entendre per què la companyia ha optat per un missatge tan poc creïble.