OpenAI no vol cedir gens de terreny en aquesta lluita tecnològica que ha representat la IA en els últims anys i és per això que continua creixent amb la presentació d'un nou model. GPT-5.4 és el seu model d'IA més avançat fins al moment i han aconseguit fer del seu sistema un de més capaç i eficient. I no arriba sol, ja que s'ha posat a disposició l'API i una plataforma anomenada Codex. El que sorprèn és el que ve a continuació, el model serà capaç de controlar un ordinador de forma nativa com si un humà ho fes amb apps i a la web. Existeixen dues versions depenent del tipus de subscriptor.

OpenAI no vol perdre sinó continuar guanyant, ho farà amb un nou model GPT-5.4

Els llançaments són els següents. GPT-5.4 Thinking que és dedicat als subscriptors de ChatGPT Plus, Team i Pro mentre que GPT-5.4 Pro serà per als subscriptors Pro i Enterprise. L'avantatge és que el primer ofereix un pla de raonament abans que comenci a operar, per la qual cosa és possible fer correccions sense començar de zero. Les dades que hi ha darrere d'aquest model són sorprenents. Un benchmark anomenat OSWorld-Verified ha mesurat la capacitat que té davant d'un entorn d'escriptori real, GPT-5.4 assoleix un 75% d'èxit superant estranyament el que faria un humà registrat en 72,4%. GPT-5.2 assolia en el seu moment 47,3%, la qual cosa és una pujada impressionant de rendiment.

La gent d'OpenAI assenyala que aquest model va ser dissenyat per a tasques de coneixement professional. Van des de presentacions fins a fulls de càlcul comptables. En un benchmark intern sobre models financers, GPT-5.4 va assolir un 87.3% superant a GPT-5.2 que va registrar 68,4%. I això no s'atura aquí, un altre test GDPval que avalua els agents d'IA amb la feina real de 44 ocupacions ha superat novament els humans amb un 83% d'efectivitat. Les seves afirmacions tenen un 33% menys de probabilitat de ser falses.

Quan aquest model pugui aterrar de manera gratuïta podria superar Gemini

Una altra mesura que comprova la contundència del model és la que permet als agents planificar i verificar tasques en horitzons temporals extensos, GPT-5.4 suporta fins a un milió de tokens en finestres de context. Un altre benchmark dedicat a aquest tipus d'activitat, amb 250 tasques i 36 servidors habilitats, el consum total de tokens es va reduir fins a un 47% amb la mateixa precisió.

Sens dubte, aquest model podria competir perfectament amb Gemini 3 i és una batalla en tota regla per veure quin és millor. El problema és que això només es limitarà a usuaris de pagament, per la qual cosa en un futur, si s'arriba a alliberar de forma gratuïta, ChatGPT podria tornar a reprendre el lideratge que va perdre. Els avenços tecnològics respecte a aquest tipus de models continuaran fins a desconèixer límits, ¿qui guanyarà?