Setmana IA | OpenAI activa Sora 2, el competidor de Google per fer vídeos

La setmana ha estat marcada per l’anunci d’OpenAI de Sora 2, un model que genera vídeos a partir de prompts i que competeix, fins i tot supera, el Veo3 de Google. Les capacitats actuals de produir vídeo amb so i moviment d’un realisme sorprenent ja són molt avançades i costa distingir-los de la realitat. A més obren la porta a imaginar mons alternatius amb una facilitat extraordinària (per exemple, jugar a polo amb unicorns). Però aquesta no ha estat l’única novetat.

El camp de la IA madura molt ràpidament i cada cop veiem més propostes que permeten adaptar els models a sectors concrets i a necessitats empresarials. També proliferen els anuncis sobre la seva aplicació en àmbits com la interacció amb clients, l’educació o el suport de producte. Camps que canviaran molt i molt ràpidament. També en recerca ha estat una setmana intensa, amb noves propostes en biomedicina, química i, sobretot, educació.

Sora 2, el generador de vídeos amb persones reals

OpenAI ha presentat Sora 2, un model que genera vídeos amb veu i pot incloure persones reals com si fessin un cameig. El model impressiona per la seva precisió en entendre les lleis del món físic i pel realisme que aconsegueix. La qualitat assolida ja permet que s’utilitzi en publicitat, cinema, televisió (incloent-hi butlletins informatius) i, en general, en tota mena de produccions: documentals, continguts educatius i formació.

Un aspecte distintiu és la seva estratègia de llançament. Inicialment, es presenta en forma d’aplicació (de moment només als Estats Units i Canadà, exclusivament per a iPhone), molt similar a TikTok, però amb la particularitat que tots els vídeos (de 10 segons) són creats per Sora 2. Aviat estarà disponible també en versió web per a la producció de vídeos, i sembla que arribarà una versió professional pensada per a estudis i publicitat. És un bon exemple de com evoluciona la indústria, amb productes diferenciats segons el sector.

AI-based feeds are scary. I won't deny that I felt some concern when I first learned we were releasing Sora 2.
That said, I think the team did the absolute best job they possible could in designing a positive experience. Compared to other platforms, I find myself scrolling way… https://t.co/uLeeVMKncl
— John Hallman (@johnohallman) September 30, 2025

Tinker, més enllà d'ajustar sortides textuals

Thinking Machines és l’empresa fundada per Mira Murati, antiga directiva d'OpenAI, valorada en 12.000 milions de dòlars i que ha aixecat 2.000 milions en una ronda liderada per a16z amb inversors com Nvidia, AMD i Cisco. És una de les startups més vigilades de Silicon Valley. La seva missió és oferir productes que permetin a les empreses adaptar els models d’IA generativa a les seves dades, objectius i formes de treball.

Això és clau en el desenvolupament d’agents virtuals, però també en la generació de propostes i, en general, per aconseguir alinear tots els actors d’una organització. El seu primer producte és Tinker, una plataforma per fer fine-tuning dels models. Permet ajustar respostes tant amb exemples concrets com amb preferències generals, i ofereix una llibreria d’alt nivell per simplificar el procés. El seu interès no es limita a ajustar sortides textuals: també obre la porta a resultats en àrees com matemàtiques, química o arquitectura de sistemes. Inicialment, és compatible amb els models LLaMA i Qwen.

Apple es fa enrere amb el llançament de les Vision Pro Air

Apple ha cancel·lat el llançament de les Vision Pro Air, una versió més econòmica de les Vision Pro, per concentrar-se en dos nous models: el N50 (previst per al 2026-2027, sense pantalla) i el N70 (per al 2028, amb pantalla). Aquest projecte havia de ser l’estrella de Tim Cook, però ara sembla que l’empresa queda a remolc de Meta i de les ulleres impulsades per Google Gemini. La lluita pels dispositius post-smartphone continua oberta, però les ulleres, que semblaven una alternativa clara, ara es troben en un futur més incert.

JPMorgan utilitza la IA per interactuar amb clients

Els bancs han començat a migrar les interaccions amb clients cap a sistemes d’IA. Als EUA, Wells Fargo ja fa servir una IA basada en Google Gemini. JPMorgan, el banc més gran dels Estats Units, que opera en retail sota la marca Chase, té una inversió de 10.000 milions en OpenAI i ja utilitza IA generativa internament per a projectes i presentacions. Ara, començarà a aplicar-la també en la interacció amb clients. Tot apunta que aviat veurem moviments similars a Europa i Espanya, amb implicacions molt rellevants per al sector financer.

La recerca en intel·ligència artificial

Qwen3-Next
AI Lab: Alibaba

Els investigadors d’Alibaba han redissenyat l’arquitectura del seu model per fer-lo més eficient en textos molt llargs, reduint la dependència del mecanisme clàssic d’“atenció” propi dels LLMs.

Pre-training under infinite compute
AI Lab: Stanford

Analitza com entrenar models grans quan el càlcul no és el límit però les dades sí. Amb tècniques de regularització més fortes, ensembling i destil·lació en models més petits, aconsegueixen multiplicar per cinc l’eficiència de dades i millorar també en proves pràctiques. La conclusió: amb ajustos algorítmics, es pot entrenar molt millor amb menys dades.

Teaching LLMs to plan
AI Lab: MIT & Microsoft

Els LLMs encara tenen dificultats per fer plans lògics i estructurats. El mètode PDDL-INSTRUCT els ensenya a raonar pas a pas i a verificar accions i plans, aconseguint fins a un 94% d’encert, molt per sobre dels models convencionals.

Learn Your Way: Reimagining textbooks with Gen AI
AI Lab: Google Labs

Learn Your Way és un sistema que adapta els llibres de text al nivell i als interessos de cada alumne, transformant-los en formats diversos: text immersiu, diapositives narrades, lliçons d’àudio i mapes mentals amb activitats d’avaluació. En un estudi amb 60 estudiants, va millorar de manera significativa la retenció immediata i al cap de tres dies en comparació amb un lector digital estàndard.

Altres notícies

-Meta (FAIR) ha restringit la política de publicació oberta, cosa que ha portat Yann LeCun a insinuar que podria deixar el càrrec.
-DeepSeek ha presentat el model V3.2-Exp, que redueix costos un 50% i amplia la finestra de context a 128K tokens gràcies al nou mètode DSA (DeepSeek Sparse Attention).
-OpenAI ha anunciat Instant Checkout, amb què els usuaris podran comprar a Etsy i Shopify i pagar amb Apple Pay, Google Pay, Stripe o targeta.
-Accenture ha acomiadat 11.500 treballadors i ha advertit que qui no aprengui a usar IA no continuarà a la companyia.
-Anthropic ha llançat Claude AgentSDK, una llibreria per construir agents d’IA que competeix directament amb la d’OpenAI.

Més