Aquest dilluns OpenAI va presentar el GPT-4o i, esclar, la pregunta immediata és: què hi ha de nou i què canvia?

Què és? Es tracta d’una versió del GPT-4 que aporta millores en algunes direccions, però principalment en una: la o és d’omnicanal. El GPT-4o treballa directament amb veu, vídeo i imatges sense cap necessitat de transformar la veu en text i viceversa. Això li permet una millor comprensió del món, veure exemples en imatges o vídeos i, sobretot, una interacció més directa amb els usuaris.

Què vol dir tot això? Que pot fer de traductor simultani, pot ajudar-te mirant una foto d’una pantalla per veure quin és el problema o simplement llegir-la, o pot “llegir” l’expressió d’una cara i saber si estàs trist, preocupat o content.

La interacció assoleix un altre nivell, inèdit fins ara.

Què més hi ha de nou? Bàsicament, dues coses més a nivell tècnic. Primer, és molt més eficient i la velocitat es dobla (2x) i és molt més barat: el cost per crida al model es redueix un 50%. Això ja era previsible: estem en una carrera per fer aquests models molt més eficients, més petits, amb menys consum d’energia i molt més barats. Això es fa tant des del hardware, amb processadors més potents i barats (el darrer de Nvidia, el Blackwell, és 4x l’anterior —el Grace Hopper— que era 2x l’anterior), com via software, amb llibreries de software molt més optimitzades (hi ha molt camp per córrer aquí encara).

És pràcticament impossible diferenciar la interacció amb el GPT-4o de la d’un humà, potser només perquè és molt més espavilat, amb un vocabulari més ric i no fica tant la pota

La tercera cosa que aporta és un fine-tuning molt millor. És pràcticament impossible diferenciar la interacció amb el GPT-4o de la d’un humà, potser només perquè és molt més espavilat, amb un vocabulari més ric i no fica tant la pota...

I què canvia tot això? Un dels somnis és canviar la interfície d’usuari. Des dels anys setanta estem amb les metàfores de les carpetes i els documents, els clics i els ratolins. La interfície natural dels humans és la parla! S’ha intentat força vegades, però mai s’ha aconseguit fer una interfície que realment funcioni com una conversa. Sembla que ara sí.

Òbviament, hi ha un factor que és el cost: encara és massa car tot plegat, però el cost va baixant molt de pressa

Ja hi ha resultats en aquesta línia, com la propera integració de la IA amb els sistemes operatius (Windows i Mac), però sobretot amb l’imminent acord d’OpenAI i Apple perquè Siri funcioni amb GPT-4o.

El potencial que el canvi d’interfície obre és enorme: des de traductors automàtics a l’ús en vehicles, televisors, electrodomèstics, ensenyament... Obre la porta a una nova era, una era que es caracteritzarà per la cointel·ligència, pels copilots. I a tota una nova sèrie de tasques, com ara el servei al client, que poden ser totalment automatitzades.

Hi ha també un canvi de model de negoci d’OpenAI. Vam passar del Freemium, on hi havia usuaris de pagament i de no pagament com a eix central, a un model de plataforma. El fet d’obrir els GPT a tothom fa que el model predominant siguin emprenedors que faran GPT i assistents dels quals OpenAI en traurà un percentatge. Això no significa que els partnerships hagin de desaparèixer, ni la fi del Freemium, però qui acabarà dominant serà la plataforma. No només pel que fa als ingressos, sinó també al creixement.

I els que paguen el Plus? Bé, de moment s’han quedat amb pocs avantatges... fins que arribi GPT-5!