DeepSeek ho ha tornat a fer i OpenAI GPT 5.5, Images 2.0 i Agents

Si la setmana passada va ser la d’Anthropic, amb tot un seguit de novetats com Claude Design —un gran producte; si encara no el feu servir, us perdeu una eina molt potent—, el model 4.7 i Claude Routines, aquesta ha estat clarament la setmana d’OpenAI, amb el llançament de GPT 5.5, d’Images 2.0 i agents, el successor dels custom GPT. Al darrere d’aquesta pugna hi ha la constatació clara: OpenAI disposa de més capacitat de computació que Anthropic.

Ara bé, dijous a la nit DeepSeek, finalment, va publicar el preview del seu nou model DeepSeek 4. El que en sabem era l’esperat. Ho fa tan bé com GPT 5.4 o Opus 4.6, es converteix en el líder en models Open Weights i en alguns aspectes com ús en agents o desenvolupament de codi ho fa especialment bé. La pròxima setmana en sabrem més, però el pla de competició entre la Xina i Estats Units, està clarament anivellat en aquests models generals.

Pel que fa al GPT 5.5 ja disponible a ChatGPT i Codex, suposa una millora notable respecte al 5.4, especialment pel que fa a eficiència i en programació. Però l’estrella de la setmana ha estat OpenAI Images 2.0, un model d’imatge que suposa un salt molt notable respecte del que havíem vist fins ara.

La competència pels grans mercats de la IA —des del model generalista fins als agents de programació— entre OpenAI, Anthropic i els models líders xinesos, és ferotge, i tot indica que continuarà així mentre hi hagi marge de millora. I, vist el ritme dels últims mesos, encara n’hi ha molt.

OpenAI també ha presentat els seus workspace agents, que es poden llegir com l’evolució natural dels GPT dins l’entorn professional. Permeten executar tasques de manera autònoma, treballar al núvol i connectar-se a eines com Slack. Els seus usos recorden els de plataformes d’agents i automatització com a Agent Builder o n8n, però aquí hi ha un element diferencial important: darrere d’aquests agents hi ha Codex, la capa d’OpenAI orientada a treball de programació i execució. Els agents que realment faran feina per nosaltres ja comencen a ser una realitat.

La setmana, però, ha donat més de si. Entre les notícies més comentades hi ha l’acord que dona a SpaceX el dret de comprar Cursor per 60.000 milions de dòlars més endavant aquest any. Cursor havia perdut part de l’impuls inicial davant la millora d’eines com Claude Code o Codex, però continua sent un producte excel·lent i estratègic dins del mercat del codi assistit per IA. Si l’operació acaba tancant-se, reforçarà encara més la batalla pel control de les eines amb què programadors i empreses treballaran sobre els grans models.

També hem vist una nova tongada de models xinesos, com Qwen3.6-Max-Preview, Qwen3.5-Omni i Kimi K2.6. Són sistemes que ja competeixen molt de prop amb els americans, sobretot en programació, agents i benchmarks multimodals o agentius. La distància no ha desaparegut del tot, però sí que s’ha reduït prou perquè la cursa per la IA de frontera sigui avui, clarament, una competició entre els Estats Units i la Xina.

Finalment, Apple ha anunciat que John Ternus substituirà Tim Cook com a conseller delegat a partir de l’1 de setembre. El relleu reforça la idea que la companyia vol continuar jugant la seva partida principal allà on sempre ha estat més forta: la combinació de hardware i software sota un mateix control. La història s’accelera, i la IA no s’atura!

DeepSeek torna a sacsejar la cursa de la IA amb V4 Pro i V4 Flash

DeepSeek ha llançat les versions preview de DeepSeek V4 Pro i DeepSeek V4 Flash, el primer gran salt d’arquitectura de la companyia des de V3. El moviment és rellevant perquè situa de nou la Xina al centre de la competició global en intel·ligència artificial: V4 Pro arriba amb 1,6 bilions de paràmetres totals i 49.000 milions d’actius, mentre que V4 Flash aposta per una versió més lleugera, amb 284.000 milions de paràmetres totals i 13.000 milions d’actius. Tots dos models suporten una finestra de context d’1 milió de tokens, molt per sobre dels 128.000 tokens de V3.2.

La lectura principal és clara: DeepSeek ja no competeix només en preu, sinó també en capacitat. Segons la fitxa tècnica publicada a Hugging Face, V4 Pro millora especialment en tasques de raonament, programació i ús agèntic, i en el benchmark GDPval-AA obté 1554 punts Elo, per davant d’altres models oberts com Kimi K2.6 i molt a prop d’alguns models tancats de primera línia.

La novetat també té una dimensió geopolítica. Associated Press subratlla que DeepSeek presenta V4 com un pas important en la rivalitat tecnològica entre la Xina i els Estats Units, mentre que The Next Web destaca que el model es publica a Hugging Face i es planteja com un repte directe per a OpenAI, Anthropic i Google.

Ara bé, convé mantenir una certa prudència. Bona part de les comparacions inicials provenen de DeepSeek o d’avaluacions encara en curs, i alguns analistes recorden que caldrà esperar proves independents completes abans de concloure si V4 és realment un nou “moment R1” o simplement una actualització molt competent.

En síntesi: DeepSeek V4 Pro confirma que la cursa entre la Xina i els EUA en IA generalista torna a estar molt viva. OpenAI i Anthropic continuen liderant bona part de la conversa, però DeepSeek demostra que els models de pesos oberts encara poden pressionar la frontera, sobretot quan combinen escala, eficiència i preus agressius.

OpenAI GPT 5.5

OpenAI ha anunciat aquest 23 d’abril de 2026 el llançament de GPT-5.5, que defineix com el seu model “més intel·ligent i intuïtiu” fins ara. La companyia assegura que és un pas més cap a una IA capaç d’assumir tasques complexes de manera més autònoma, especialment en àmbits com la programació, la recerca, l’anàlisi de dades, la creació de documents i l’ús d’eines digitals.

Segons OpenAI, GPT-5.5 millora de manera notable respecte a GPT-5.4 en àrees com la programació agentiva, el treball de coneixement, l’ús de l’ordinador i la recerca científica primerenca, però sense penalitzar la velocitat. De fet, la firma sosté que manté una latència similar a la del model anterior, mentre requereix menys tokens per completar determinades tasques. Es posiciona de nou com el millor model a l’índex d’Artificial Analysis.

La companyia destaca també els resultats en diversos bancs de proves, on GPT-5.5 supera GPT-5.4 en benchmarks de codi, ús d’eines, context llarg, matemàtiques i ciberseguretat. Entre les xifres més rellevants, OpenAI subratlla el 82,7% a Terminal-Bench 2.0, el 84,9% a GDPval i el 78,7% a OSWorld-Verified. OpenAI defensa que el model no només és millor responent, sinó també planificant, comprovant errors, navegant per la incertesa i perseverant fins a acabar la feina.

Aquesta evolució, segons la firma, l’acosta a un ús més pràctic en entorns professionals, des de l’enginyeria de programari fins a finances, comunicació, educació o recerca biomèdica. Pel que fa a la disponibilitat, GPT-5.5 ja arriba a ChatGPT i Codex per als usuaris Plus, Pro, Business i Enterprise, mentre que GPT-5.5 Pro queda reservat als plans Pro, Business i Enterprise. OpenAI també ha avançat que el model arribarà “molt aviat” a l’API, amb preus superiors als de GPT-5.4 però, segons l’empresa, compensats per una eficiència més alta.

ChatGPT Images 2.0

OpenAI ha presentat ChatGPT Images 2.0, una actualització que fa un salt important en la generació d’imatges amb intel·ligència artificial i l’acosta a usos professionals reals. La nova versió incorpora capacitats de “raonament”, de manera que el sistema pot planificar millor la composició abans de crear la imatge, revisar els resultats i generar versions coherents a partir d’una sola instrucció.

Una de les millores més destacades és la representació de text dins les imatges, fins ara un dels grans punts febles d’aquesta tecnologia. Si abans aquests sistemes acostumaven a produir cartells, menús o interfícies amb paraules deformades o inventades, ara poden generar amb molta més precisió peces útils per a entorns reals de treball, com ara anuncis, pòsters, interfícies d’usuari o dissenys amb composicions denses.

Entre les novetats, també destaca la possibilitat de crear diverses imatges consistents a partir d’un sol prompt, mantenint el mateix estil i els mateixos personatges, així com el suport per a textos en múltiples idiomes, incloent-hi llengües no llatines com el japonès, el coreà, l’hindi, el bengalí o el xinès. El model és compatible amb estils molt diversos —des del fotorealisme fins al cinema, el manga, el píxel art o la infografia— i permet treballar amb formats flexibles, proporcions personalitzades i resolucions de fins a prop de 2K.

Segons OpenAI, Images 2.0 aporta un nivell inèdit d’especificitat i fidelitat visual, amb capacitat per seguir instruccions complexes, preservar detalls i representar amb més precisió elements que fins ara sovint fallaven, com el text petit, la iconografia, les interfícies o les restriccions estilístiques subtils. Aquestes capacitats, però, impliquen que la generació no sigui tan immediata com una resposta de text, tot i que la creació de continguts complexos continua fent-se en pocs minuts. La importància d’aquest llançament rau en el fet que, per primera vegada, la generació d’imatges amb IA sembla preparada per a entorns de producció. Ja no es tracta només d’una eina experimental o lúdica, sinó d’una tecnologia que pot transformar la manera com creadors, equips de màrqueting i empreses passen d’una idea inicial a una peça visual acabada, sense necessitat de recórrer sempre a eines de disseny tradicionals. (Venturebeat)

OpenAI Agents

OpenAI ha llançat els workspace agents, una nova eina de ChatGPT pensada per a equips i organitzacions. La companyia ha anunciat que els usuaris de ChatGPT Business, Enterprise, Edu i Teachers podran crear agents compartits capaços de gestionar tasques complexes i fluxos de treball de llarga durada dins dels límits de permisos i controls definits per cada organització.

Segons OpenAI, aquests agents són una evolució dels GPT i estan impulsats per Codex. La seva funció és assumir feines habituals dins l’empresa, com ara preparar informes, escriure codi, respondre missatges, generar seguiments comercials o elaborar reportings periòdics. Com que operen al núvol, poden continuar treballant fins i tot quan l’usuari no està connectat, i es poden compartir entre membres d’un mateix equip o desplegar també a Slack.

La companyia defensa que aquests agents estan pensats per a fluxos de treball col·laboratius, en què cal combinar context compartit, eines connectades, processos interns i aprovacions. Entre els exemples que destaca hi ha agents per revisar sol·licituds de programari, ordenar feedback de producte, elaborar informes setmanals, qualificar contactes comercials o analitzar riscos de proveïdors. OpenAI subratlla que els administradors mantenen el control sobre quines dades i eines pot utilitzar cada agent, quines accions pot executar i en quins casos ha de demanar autorització abans de continuar.

A més, les organitzacions disposaran de funcions de monitoratge, analítica d’ús i eines de governança per supervisar com es creen i s’utilitzen aquests agents. Els workspace agents estan disponibles des d’ara en fase de research preview i seran gratuïts fins al 6 de maig de 2026. A partir d’aquella data, OpenAI aplicarà un model de preus basat en crèdits. Amb aquest moviment, l’empresa fa un pas més en la transformació de ChatGPT, d’assistent conversacional a plataforma de treball compartit amb agents capaços d’actuar de manera persistent dins l’entorn empresarial. (OpenAI)

Amazon i Anthropic amplien la seva col·laboració

Amazon i Anthropic han ampliat la seva aliança estratègica en intel·ligència artificial amb un acord que reforça tant la infraestructura com la inversió financera entre les dues companyies. Amazon ha anunciat una inversió immediata de 5.000 milions de dòlars a Anthropic, amb la possibilitat d’afegir fins a 20.000 milions més en el futur si es compleixen determinats objectius comercials. Aquesta xifra se suma als 8.000 milions que Amazon ja havia invertit prèviament a la firma d’IA.

L’acord preveu que Anthropic destini més de 100.000 milions de dòlars en deu anys a tecnologies d’AWS, incloent-hi diverses generacions dels xips Trainium i desenes de milions de nuclis Graviton. Segons les dues empreses, aquesta infraestructura servirà per entrenar i operar models avançats d’intel·ligència artificial a gran escala. En aquest marc, Anthropic es garantirà fins a 5 gigawatts de capacitat computacional, inclosa una part significativa de la nova generació Trainium3.

Un altre dels punts destacats és que la plataforma de Claude estarà disponible de manera nativa dins d’AWS, cosa que facilitarà que els clients d’Amazon accedeixin a les eines d’Anthropic sense haver de gestionar nous comptes, contractes o sistemes de facturació. Amazon assegura que ja hi ha més de 100.000 clients que utilitzen models Claude a través d’Amazon Bedrock, fet que converteix aquesta família de models en una de les més populars dins del seu ecosistema.

SpaceX podrà comprar Cursor per 60.000 milions de dòlars

SpaceX s’ha reservat l’opció de comprar Cursor per 60.000 milions de dòlars aquest mateix any, en una operació que evidencia fins a quin punt la cursa per la intel·ligència artificial s’està traslladant també a les eines de programació. Segons han informat mitjans nord-americans, l’empresa d’Elon Musk ha pactat amb l'empresa emergent darrere de Cursor un acord que li dona dret a adquirir-la més endavant el 2026 per aquesta xifra. Si finalment la compra no es tanca, SpaceX abonaria 10.000 milions de dòlars pel treball conjunt entre les dues companyies.

L’operació reforça l’aposta de Musk per integrar infraestructura massiva de computació amb eines d’IA orientades al desenvolupament de programari. L’objectiu declarat és combinar el producte i la base d’usuaris de Cursor amb la capacitat computacional de SpaceX i xAI per construir models més útils per a programació i treball del coneixement. Cursor, desenvolupada per Anysphere, s’ha convertit en una de les plataformes d’assistència a la programació més seguides del sector.

La xifra pactada suposa una prima molt notable respecte a les valoracions anteriors de la companyia. Cursor havia buscat recentment una nova ronda de finançament que l’hauria valorat entorn dels 50.000 milions de dòlars, després d’haver estat valorada per sota d’aquesta xifra en rondes precedents.

Segons, aquella ronda hauria quedat aturada arran del nou acord amb SpaceX. Més enllà de la magnitud financera, el moviment reflecteix una tendència de fons: les grans plataformes tecnològiques volen controlar no només els models d’IA, sinó també les eines amb què programadors i empreses interactuen cada dia amb aquests sistemes. En aquest context, Cursor s’ha convertit en una peça estratègica en la batalla entre SpaceX-xAI, OpenAI i Anthropic per dominar el mercat del codi assistit per IA.

Moonshot Kimi K2.6 i Qwen3.6-Max-Preview

Els models xinesos d’intel·ligència artificial han deixat de jugar a remolc dels nord-americans. En els últims llançaments, companyies com Alibaba o Moonshot AI han presentat sistemes que ja competeixen en capacitats clau amb OpenAI, Google o Anthropic, sobretot en programació, agents i ús multimodal. La bretxa no ha desaparegut del tot, però sí que s’ha escurçat prou perquè la cursa per la IA de frontera ja sigui, clarament, una competició entre els Estats Units i la Xina.

En aquest context, Moonshot AI ha reforçat la seva aposta amb Kimi K2.6, un model orientat a programació, agents i tasques de llarg context. La companyia el desplega tant a Kimi Chat com a la seva API, amb diverses variants pensades per cobrir des de respostes ràpides fins a automatitzacions més complexes, recerca o execució massiva de tasques. Moonshot defensa que el model obté resultats molt competitius en benchmarks de codi i ús d’eines, i el presenta com una de les seves grans cartes per disputar el mercat dels models oberts i dels entorns de treball assistits per IA.

També Qwen, la família de models d’Alibaba, continua accelerant. La companyia ha anunciat Qwen3.6-Max-Preview, una nova versió preliminar del seu model propietari més avançat, amb millores en coneixement general, seguiment d’instruccions i programació agentiva. Segons Alibaba, aquesta nova iteració lidera diversos benchmarks de codi i reforça la idea que la competència ja no gira només al voltant del raonament general, sinó també de la capacitat dels models per actuar com a agents útils, usar eines i executar fluxos de treball reals. Entre Kimi i Qwen, la fotografia és cada cop més clara: la Xina ja no només intenta seguir el ritme dels grans laboratoris dels Estats Units, sinó que vol disputar-los directament el lideratge en alguns dels terrenys més decisius de la nova generació d’intel·ligència artificial. (Qwen)

La recerca IA

Qwen 3.5-Omni Technical Report-AI Lab: Qwen (Alibaba)

Alibaba presenta Qwen3.5-Omni, un model multimodal que aspira a competir amb els grans sistemes d’IA generals. La nova versió de la família Qwen suposa un salt notable respecte a l’anterior: escala fins a centenars de milers de milions de paràmetres, admet contextos de fins a 256.000 tokens i ha estat entrenada amb una base de dades massiva que combina text, imatge, àudio i vídeo. Segons els seus desenvolupadors, Qwen3.5-Omni-Plus aconsegueix resultats d’avantguarda en 215 proves relacionades amb comprensió, raonament i interacció en àudio i audiovisual, fins al punt de superar Gemini 3.1 Pro en algunes tasques d’àudio i igualar-lo en comprensió audiovisual global. El model pot processar més de 10 hores d’àudio i fins a 400 segons de vídeo en 720p, fet que reforça la seva orientació cap a usos multimodals complexos.

Una de les principals novetats tècniques és ARIA, un sistema pensat per millorar la síntesi de veu en temps real. Aquesta tecnologia busca resoldre un problema habitual dels models de veu conversacional: la manca d’estabilitat i naturalitat. Segons l’equip, ARIA permet alinear millor text i parla, cosa que millora la prosòdia i la fluïdesa sense penalitzar gaire la latència. El model també amplia les seves capacitats lingüístiques: entén i genera veu en 10 idiomes, amb més matisos emocionals i fins i tot amb opcions de personalització de veu a partir de mostres aportades per l’usuari. A això s’hi afegeix una millor capacitat per descriure contingut audiovisual de manera estructurada, amb subtítols sincronitzats, segmentació automàtica d’escenes i una nova habilitat que els autors anomenen “audiovisual vibe coding”, és a dir, la capacitat de programar a partir d’instruccions en àudio i vídeo.

Many-Tier Instruction Hierarchy in LLM Agents-AI Lab: Johns Hopkins University
Un altre dels fronts emergents en la cursa de la IA és la fiabilitat dels agents quan reben ordres contradictòries. Un nou treball posa el focus en aquest problema i sosté que els models actuals encara fallen sovint a l’hora de decidir quina instrucció han d’obeir quan reben missatges de moltes fonts diferents, com ara el sistema, l’usuari, eines externes o altres agents. Els autors proposen un nou enfocament, anomenat Many-Tier Instruction Hierarchy (ManyIH), pensat per gestionar conflictes entre instruccions amb molts més nivells de prioritat que els esquemes habituals. Fins ara, la majoria de sistemes parteixen d’una jerarquia simple —per exemple, sistema per sobre de l’usuari—, però això queda curt en entorns agentius reals, on poden intervenir moltes capes i contextos diferents.

Per avaluar aquest problema, els investigadors han creat ManyIH-Bench, el primer benchmark centrat en aquesta qüestió. Inclou 853 tasques agentives, tant de programació com de seguiment d’instruccions, i obliga els models a navegar conflictes entre fins a 12 nivells de privilegis. El resultat és clar: fins i tot els models més avançats obtenen un rendiment modest, d’entorn del 40% d’encert, cosa que evidencia que la resolució de conflictes d’instruccions continua sent una assignatura pendent. La conclusió és rellevant perquè reforça una idea clau del moment actual: el repte dels agents d’IA ja no és només que siguin més potents, sinó que siguin també més obedients, fiables i governables en entorns complexos.

Com la IA ens canviarà la vida

Qui neteja els carrers i els parcs a la Xina: robots

Ver esta publicación en Instagram

Una publicación compartida por Dope China! 🇨🇳 (@dope.china)

Camions elèctrics i autònoms
Camions elèctrics i autònoms, és clar: a la Xina

Ver esta publicación en Instagram

Una publicación compartida por Multiservicos Camacho 2021 C.A (@multisercamacho)

Autobusos autònoms 24x7x365

Ver esta publicación en Instagram

Una publicación compartida por Gilberto Spiguel (@gauchoimporta)

Camions elèctrics i autònoms a Texas

Portacontenidors elèctrics

Altres notícies

-Tencent i Alibaba estarien interessades a invertir a DeepSeek, però la xifra de 20.000 milions no la donaria per bona sense una confirmació més sòlida.
-OpenAI ha començat a provar anuncis amb model cost-per-clic dins de ChatGPT.
-Microsoft ha retallat el preu de les subscripcions de Xbox un 23%.
-Tencent ha llançat la seva versió d’un agent tipus OpenClaw.
-Anthropic investiga usos no autoritzats de Mythos.
-John Ternus substituirà Tim Cook com a CEO d’Apple a partir de l’1 de setembre.