Gemini 3.1, OpenAI + OpenClaw i Apple 'wearables'

La incorporació de Peter Steinberger, fundador d’OpenClaw —l’agent de moda del qual tothom parla— a OpenAI ha estat la notícia de la setmana i, probablement, el gran cop d’efecte d’OpenAI. El món dels agents personals i empresarials és, segurament, el més actiu aquests dies, i OpenClaw, amb totes les seves variants com Motbot —la comunitat on només hi ha agents i els humans són espectadors— no només ha fet parlar molt, sinó que clarament obre la porta a agents que interactuen amb el món i fan coses per nosaltres: comprar, gestionar-nos l’agenda, recordar-nos què tenim cada dia o, fins i tot, fer feines completes per nosaltres. Segur que veurem resultats concrets en forma de producte a OpenAI i a molts altres.

Mentrestant, Google ha tret un nou model, el Gemini 3.1, i s’ha tornat a col·locar al capdavant dels rànquings… fins que arribi DeepSeek 4 i tota la resta, és clar. La discussió que la setmana passada va iniciar Matt Shumer sobre la gran millora en capacitats que estan experimentant els models continua viva i ja ha transcendit a la política. Com sempre, hi ha qui hi veu perills i qui hi veu oportunitats. Però els que s’afanyen a materialitzar les oportunitats són els que capturen valor.

https://t.co/ivXRKXJvQg
— Matt Shumer (@mattshumer_) February 10, 2026

Mentrestant, tots esperant el nou model de DeepSeek i l’allau que vindrà després, clar!

El Gemini 3.1 Pro

Google ha presentat Gemini 3.1 Pro, una actualització del seu model insígnia d’IA que promet millorar el raonament i la resolució de problemes complexos. La companyia assegura que el nou model ja està llest per als “reptes més difícils” i el desplega en fase de previsualització tant per a desenvolupadors com per a usuaris finals. Segons Google, la nova versió és també el “nucli” de les millores recents del seu mode Deep Think.

L’anunci arriba acompanyat de resultats en benchmarks: a Humanity’s Last Exam, Gemini 3.1 Pro aconsegueix un 44,4%, per sobre de Gemini 3 Pro (37,5%) i de GPT 5.2 (34,5%), sempre segons les xifres facilitades per la mateixa empresa. En una altra prova, ARC-AGI-2, enfocada a problemes lògics nous i difícils d’anticipar amb entrenament directe, Google afirma que el model passa del 31,1% a un 77,1%. Tot i aquestes millores, Gemini 3.1 Pro no lidera alguns rànquings d’avaluació basats en preferències d’usuari, com l’Arena (abans LM Arena), on altres models el superen lleugerament tant en text com en codi. L’article recorda que aquest tipus de classificacions poden premiar respostes “convincents”, encara que no siguin necessàriament més correctes.

Google exemplifica el salt del model amb la capacitat de generar gràfics i simulacions (com ara SVG) i apunta que els desenvolupadors que construeixen fluxos agentics podrien notar una millora, amb un augment notable al benchmark APEX-Agents. Disponibilitat: Gemini 3.1 Pro arriba avui a AI Studio i Antigravity IDE (previsualització), i també a entorns corporatius com Vertex AI i Gemini Enterprise. Per al públic general, es podrà utilitzar des de l’app Gemini i NotebookLM. Google manté els mateixos preus de l’API (2 dòlars per 1M tokens d’entrada i 12 dòlars per 1M tokens de sortida) i la mateixa finestra de context (fins a 1 milió de tokens d’entrada i 64.000 de sortida), i deixa entreveure que podria arribar aviat una actualització similar per al model flash, més ràpid i econòmic.

Gemini 3.1 Pro is here. Hitting 77.1% on ARC-AGI-2, it’s a step forward in core reasoning (more than 2x 3 Pro).

With a more capable baseline, it’s great for super complex tasks like visualizing difficult concepts, synthesizing data into a single view, or bringing creative… pic.twitter.com/aEs0LiylQZ
— Sundar Pichai (@sundarpichai) February 19, 2026

OpenAI incorpora el fundador d’OpenClaw i part del seu equip

OpenAI ha confirmat la incorporació de Peter Steinberger, fundador d’OpenClaw, juntament amb part del seu equip, després de setmanes de converses avançades. L’objectiu és que treballin principalment en agents personals dins d’OpenAI, una de les àrees més estratègiques del sector. OpenClaw s’ha convertit en un projecte viral perquè permet crear agents capaços de controlar l’ordinador i executar tasques complexes (des de generar materials de màrqueting fins a reservar cites), amb la particularitat que pot combinar models d’IA de diversos proveïdors i oferir un accés molt ampli al sistema de l’usuari.

El moviment també evidencia la guerra pel talent: Meta també intentava fitxar Steinberger, ja que les grans empreses competeixen per liderar el mercat dels agents. Paral·lelament, OpenAI donarà suport a la creació d’una fundació que continuarà supervisant el projecte open source d’OpenClaw. Steinberger, que fins ara finançava personalment el projecte amb entre 10.000 i 20.000 dòlars mensuals, explica que no vol convertir OpenClaw en una gran empresa i que unir-se a OpenAI és la manera més ràpida de portar aquesta tecnologia al gran públic.

Peter Steinberger is joining OpenAI to drive the next generation of personal agents. He is a genius with a lot of amazing ideas about the future of very smart agents interacting with each other to do very useful things for people. We expect this will quickly become core to our…
— Sam Altman (@sama) February 15, 2026

La rivalitat entre Sam Altman i Dario Amodei

Aquests dies hem tornat a veure un exemple de l’extraordinària rivalitat entre Sam Altman i Dario Amodei a la trobada de l’Índia. Sam Altman (OpenAI) i Dario Amodei (Anthropic), col·locats l’un al costat de l’altre en una foto d’unitat amb líders polítics i tecnològics, van evitar donar-se la mà i van optar per aixecar el puny, un moment que es va viralitzar a les xarxes.

Més enllà de l’anècdota, l’escena reflecteix la competència creixent entre dues de les empreses que volen marcar el futur de la IA generativa. Anthropic ha aprofitat el debat sobre seguretat i alignment per posicionar-se com l’alternativa “responsable”, mentre OpenAI aposta per l’escala massiva i per ser present en el dia a dia dels usuaris.

La tensió s’ha fet també pública en el terreny del màrqueting: Anthropic ha llançat anuncis a la Super Bowl que ridiculitzen la idea d’introduir publicitat en xatbots, una línia que s’ha llegit com una crítica directa als experiments d’OpenAI amb formats d’anuncis. OpenAI ha respost acusant aquests missatges de ser enganyosos i elevant el to del debat sobre qui està “venent” millor la narrativa de la seguretat.

OpenAI CEO Sam Altman and Anthropic CEO Dario Amodei visibly declined to hold hands during a group photo at the India AI Impact Summit, even as other leaders on stage linked arms for the ceremonial shot pic.twitter.com/J1eGShSkiK
— Reuters (@Reuters) February 19, 2026

Anthropic Sonnet 4.6

Anthropic ha presentat Claude Sonnet 4.6, la nova versió del seu model “Sonnet”, que descriu com el més potent fins ara dins aquesta gamma. L’empresa assegura que és una actualització completa en capacitats clau com programació, ús d’ordinadors, raonament amb context llarg, planificació d’agents, treball de coneixement i disseny, i incorpora una finestra de context d’1 milió de tokens (en beta). Sonnet 4.6 ja és el model per defecte a claude.ai per als usuaris Free i Pro, mantenint els mateixos preus que Sonnet 4.5 (a partir de 3$/15$ per milió de tokens). Anthropic afirma que ara ofereix rendiment proper a models “Opus” (més cars) en tasques d’oficina i desenvolupament, amb millores destacades en consistència, seguiment d’instruccions i reducció d’al·lucinacions.

Un dels grans focus és el computer use, és a dir, la capacitat del model per operar aplicacions com ho faria una persona (clicar, escriure, navegar per pestanyes). Segons Anthropic, Sonnet 4.6 mostra avenços importants al benchmark OSWorld, i els primers usuaris ja veuen resultats gairebé humans en tasques com gestionar fulls de càlcul complexos o completar formularis web. També destaca una millor resistència als prompt injections, un risc crític quan els models interactuen amb webs i sistemes reals.

A més, Anthropic subratlla que Sonnet 4.6 ha estat sotmès a avaluacions de seguretat exhaustives i que manté un comportament “prosocial” i estable. També amplia funcionalitats de plataforma: compatibilitat amb adaptive i extended thinking, compacció automàtica de context, i més eines avançades a l’API (web search, fetch, execució de codi i tool calling). Finalment, la companyia manté que Opus 4.6 continua sent el model ideal per a tasques de raonament extrem, però que Sonnet 4.6 ja ofereix un equilibri molt competitiu entre cost i capacitat, especialment per a agents i desenvolupament.

This is Claude Sonnet 4.6: our most capable Sonnet model yet.

It’s a full upgrade across coding, computer use, long-context reasoning, agent planning, knowledge work, and design.

It also features a 1M token context window in beta. pic.twitter.com/TDId3XUSRs
— Claude (@claudeai) February 17, 2026

Waymo 6

Waymo ha anunciat l’inici d’operacions totalment autònomes amb el seu sistema de conducció de 6a generació, un pas clau per expandir el servei a més ciutats i entorns, inclosos climes amb hiverns extrems. El nou driver redueix costos i manté els estàndards de seguretat després d’haver acumulat prop de 200 milions de milles de conducció autònoma en més de deu grans ciutats.

El sistema combina càmeres d’alta resolució, lidar, radar i receptors d’àudio per detectar amb precisió vehicles, vianants i situacions complexes, fins i tot en pluja, neu o baixa visibilitat. Waymo destaca que el seu enfocament és desenvolupar un conductor autònom adaptable a diferents models de vehicle, amb l’objectiu d’escalar la producció a desenes de milers d’unitats anuals i accelerar el desplegament comercial.

Meet Ojai, equipped with our 6th-gen Waymo Driver now driving fully autonomously. 🚙 We’re excited to begin welcoming riders this summer. pic.twitter.com/JOqhy9w5By
— Waymo (@Waymo) February 19, 2026

'User innovation', el seu millor moment

Vivim un dels millors moments per a la innovació d’usuari. A totes les empreses, grups i campions d’usuaris s’afanyen a crear automatitzacions, compartir prompts o, fins i tot, desenvolupar veritables sistemes multiagents. Sistemes com Anthropic Code o OpenAI Codex ho fan encara més fàcil, enderrocant les barreres d’entrada i fent que pràcticament tothom pugui crear aplicacions sofisticades. El darrer exemple de tot això ha estat la hackató d’Anthropic.

D’entre 13.000 aplicacions presentades, el tercer lloc ha estat per a un cardiòleg —Michal Nedoszytko—. El seu projecte postvisit.ai vol guiar els pacients quan deixen l’oficina del cardiòleg en la seva vida diària. Aquest doctor ha desenvolupat el seu projecte només en 7 dies i enmig d’una intensa activitat assistencial i viatges entre Brussel·les i San Francisco, òbviament amb Anthropic Code i fent servir el gran context de què disposa Opus 4.6.

Cardiologist wins 3rd place at Anthropic's hackathon. Out of 13,000 applications. Built in 7 days by Michał Nedoszytko MD. Coded day and night - in the hospital, in the cloud, while flying from Brussels to San Francisco.
A few years ago, it would have been impossible for a doctor… pic.twitter.com/nNtf9mnmfH
— Michał Podlewski (@trajektoriePL) February 20, 2026

La Xina converteix els robots humanoides en espectacle nacional (i missatge industrial)

La Xina ha fet viral la seva aposta pels robots humanoides utilitzant el seu aparador mediàtic més potent: la CCTV Spring Festival Gala, el programa de Cap d’Any xinès que veu pràcticament tot el país. En un segment que ja corre per X i YouTube amb milions de visualitzacions, diversos robots van aparèixer en escena fent kungfu, coreografies i sketches còmics, integrats amb actors i ballarins humans. Entre els protagonistes hi havia robots de Unitree, capaços de fer rutines marcials sorprenentment complexes, incloent-hi moviments d’equilibri tipus drunken boxing i, sobretot, una habilitat clau: recuperar-se després de caure sense perdre estabilitat. També hi van participar robots de Noetix, MagicLab i Galbot, mostrant coordinació en directe amb persones, en un entorn de risc real (televisió en horari de màxima audiència, sense marge per errors).

Darrere del show hi ha una estratègia clara: la Xina vol accelerar la convergència entre IA + manufactura i està convertint els humanoides en símbol de modernització industrial. Segons les dades citades, el país hauria enviat el 90% dels 13.000 humanoides venuts globalment l’any passat i diverses empreses preveuen sortir a borsa el 2026, impulsades per capital privat i suport estatal.

És important perquè el que s’ha vist a l’escenari no és només màrqueting: un robot que manté l’equilibri, es recupera d’un impacte i es mou amb seguretat al costat d’humans està demostrant el tipus de control necessari per començar a entrar en tasques industrials reals com picking & packing, inspecció, manipulació d’eines o muntatge bàsic, especialment en entorns “bruts” i canviants on l’automatització fixa encara falla. En resum: la Xina està alineant atenció pública, política industrial i inversió en un mateix embut. I el missatge és inequívoc: els robots humanoides ja no són només demos de laboratori, sinó una aposta per convertir-se en mà d’obra generalista en entorns productius.

China's most-watched TV show, the annual CCTV Spring Festival gala, showcased the country's cutting-edge industrial policy and Beijing's push to dominate humanoid robots and the future of manufacturing https://t.co/i5u9nSTLHS pic.twitter.com/fSrnAajzuI
— Reuters (@Reuters) February 18, 2026

Apple prepara tres nous 'wearables'

Apple estaria intensificant el desenvolupament de tres dispositius amb intel·ligència artificial integrada, amb l’objectiu de reforçar la seva posició en la nova onada de dispositius personals intel·ligents i anticipar-se a la competència. Entre els projectes en marxa destaca un pendent amb càmera i IA, de mida similar a un AirTag, pensat per portar enganxat a la roba. La companyia també treballa en unes ulleres intel·ligents amb IA, amb el nom intern N50, que podrien entrar en producció a finals d’aquest any amb vista a un possible llançament el 2027. Aquestes ulleres inclourien una càmera d’alta resolució i es posicionarien com un producte més “prèmium” dins la gamma de wearables d’Apple.

A més, Apple estaria desenvolupant AirPods amb capacitats avançades d’IA, integrats profundament amb el seu ecosistema. Tots aquests dispositius funcionarien en estreta connexió amb l’iPhone i dependrien en gran manera de Siri com a interfície principal. El moviment apunta a un canvi estratègic cap a l’“ambient computing”, on la IA no viu només al telèfon sinó que s’integra de manera constant i invisible en objectes quotidians. Apple vol assegurar-se un paper central en aquest nou escenari abans que altres fabricants consolidin la seva posició en el mercat.

La recerca en IA

Agentic Reasoning for Large Language Models / AI Lab: Illiois Urgana-Champaign, Meta, Amazon, Google DeepMind, UCSD, Yale

Aquest article és la millor revisió sistemàtica del concepte d’“agentic reasoning” que conec. Tot i que els LLM actuals mostren bon rendiment en entorns tancats —com problemes matemàtics o programació—, tenen dificultats en entorns oberts, dinàmics i canviants. L'“agentic reasoning” proposa un canvi de paradigma: convertir els models en agents autònoms capaços de planificar, actuar i aprendre mitjançant la interacció contínua amb l’entorn, integrant pensament i acció.

L’estudi organitza aquest nou enfocament en tres nivells:
-Raonament agentic fonamental: capacitats bàsiques d’un sol agent (planificació, ús d’eines, cerca) en entorns estables.
-Raonament autoevolutiu: agents que milloren amb el temps gràcies a feedback, memòria i adaptació en entorns canviants.
-Raonament col·lectiu multiagent: múltiples agents que cooperen, es reparteixen rols i comparteixen coneixement per assolir objectius comuns.

A més, el text diferencia dues formes d’optimitzar aquests sistemes:
-In-context reasoning: millores durant la interacció (orquestració, fluxos de treball adaptatius).
-Post-training reasoning: millores mitjançant entrenament addicional (reinforcement learning o fine-tuning supervisat).

La revisió analitza aplicacions reals en àmbits com ciència, robòtica, salut, recerca autònoma i matemàtiques, i proposa un full de ruta unificat per desenvolupar sistemes agèntics més efectius. Finalment, identifica reptes oberts: personalització, interaccions de llarg termini, modelització del món, entrenament escalable multiagent i marcs de governança per al desplegament en entorns reals.

Towards Autonomous Mathematics Research / AI Lab: Google DeepMind
Els avenços recents en models fundacionals han permès desenvolupar sistemes capaços d’assolir nivell d’or a l’Olimpíada Internacional de Matemàtiques. Però passar de resoldre problemes de competició a fer recerca professional implica gestionar bibliografia extensa i construir demostracions de llarg recorregut.

En aquest context, els autors presenten Aletheia, un agent de recerca matemàtica que genera, verifica i revisa solucions de manera iterativa i completa en llenguatge natural. El sistema es basa en tres pilars: una versió avançada de Gemini Deep Think per al raonament complex, una nova llei d’escalat en inferència que amplia el rendiment més enllà del nivell olímpic, i un ús intensiu d’eines per navegar la complexitat de la recerca matemàtica.

Aletheia mostra capacitats que van des de problemes d’olimpíada fins a exercicis de nivell doctoral, i destaca tres fites en recerca assistida per IA: la generació autònoma d’un article sobre constants estructurals en geometria aritmètica; una col·laboració humà-IA en resultats sobre sistemes de partícules (conjunts independents); i l’avaluació semiautònoma de 700 problemes oberts relacionats amb les conjectures d’Erdős, amb quatre solucions trobades de manera autònoma.

Els autors proposen establir estàndards per mesurar el nivell d’autonomia i novetat dels resultats assistits per IA, així com crear “targetes d’interacció humà-IA” per reforçar la transparència. Conclouen reflexionant sobre el futur de la col·laboració entre matemàtics i sistemes d’IA i publiquen els prompts i resultats per facilitar l’escrutini públic.

A Primer on Factory Economics for Startups / AI Lab: a16z
Hi ha un tipus de companyia, especialment habitual en sectors de maquinari, on l’avantatge competitiu no depèn només del producte final, sinó del procés de fabricació. Aquest model es coneix com The Factory is the Product, perquè la fàbrica —la capacitat productiva i la tecnologia per fabricar— es converteix en el veritable actiu estratègic i en la principal propietat intel·lectual.

Els autors expliquen que han treballat amb startups de motors per drons, actuadors de robots, PCB, components aeroespacials o bateries, i que el denominador comú no és el producte en si, sinó la capacitat d’escalar la producció. Aquestes empreses no subcontracten la fabricació ni creen només un disseny per a tercers: desenvolupen processos industrials nous on la tecnologia de producció és el nucli del negoci.

El text sosté que, a mesura que més startups passen de prototips a producció massiva, entendre les dinàmiques econòmiques d’una fàbrica serà clau per a fundadors, directius i inversors. Per això, el document es presenta com una guia inicial per ajudar emprenedors orientats a producte a gestionar el pas cap a aquest model, explicant conceptes bàsics d’economia industrial, mètriques operatives i estratègia de capital en empreses venture-backed on la “fàbrica” és, literalment, el producte.

Altres notícies

-Els molts notables avenços de la sanitat —pública i privada— a la Xina continuen sorprenent els usuaris occidentals. Molts ens preguntem per què no copiem el seu model en comptes d’insistir en el nostre, que clarament està molt per sota. Aquest és el darrer exemple.
-AMD comença a utilitzar la mateixa estratègia que NVIDIA proporcionant crèdits a clients; en aquest cas han estat $300M a Crusoe.
-Google ha anunciat Lyria3 per generar música: crea tracks de fins a 30 segons a partir de text.
-Meta vol llençar un SmartWatch el 2026 —Malibu 2— focalitzat en health-tracking.
-ElevenLabs ja té un competidor open source, VoiceBox, i sembla que ho fa fins i tot millor!
-NYC descarta el seu pla per legalitzar els robotaxis. El futur haurà d’esperar a Nova York. Mentrestant la Xina avança sense parar.
-El primer Cybercab ja ha sortit de la planta de Tesla a la Gigafactoria de Texas. És un vehicle de dues places, sense volant ni pedals, destinat a fer de robotaxi. El procés de producció és nou i difícil, però Tesla espera que pugui escalar a 5M de robotaxis per any.
-El Pentàgon pressiona Anthropic perquè col·labori més en temes militars.
-Després de mesos de conversa, Anthropic ha manifestat que no vol participar en temes com armes autònomes.
-Si no has provat els plug-ins per Excel i PowerPoint, ja vas tard...

Més