Este lunes OpenAI presentó el GPT-4o y, claro, la pregunta inmediata es: ¿qué hay de nuevo y qué cambia?

¿Qué es? Se trata de una versión del GPT-4 que aporta mejoras en algunas direcciones, pero principalmente en una: la o es de omnicanal. El GPT-4o trabaja directamente con voz, vídeo e imágenes sin necesidad de transformar la voz en texto y viceversa. Esto le permite una mejor comprensión del mundo, ver ejemplos en imágenes o vídeos y, sobre todo, una interacción más directa con los usuarios.

¿Qué significa todo esto? Que puede hacer de traductor simultáneo, puede ayudarte mirando una foto de una pantalla para ver cuál es el problema o simplemente leerla, o puede “leer” la expresión de una cara y saber si estás triste, preocupado o contento.

La interacción alcanza otro nivel, inédito hasta ahora.

¿Qué más hay de nuevo? Básicamente, dos cosas más a nivel técnico. Primero, es mucho más eficiente y la velocidad se duplica (2x) y es mucho más barato: el coste por llamada al modelo se reduce un 50%. Esto ya era previsible: estamos en una carrera para hacer estos modelos mucho más eficientes, más pequeños, con menos consumo de energía y mucho más baratos. Esto se logra tanto desde el hardware, con procesadores más potentes y baratos (el último de Nvidia, el Blackwell, es 4x el anterior —el Grace Hopper— que era 2x el anterior), como vía software, con librerías de software mucho más optimizadas (aquí aún hay mucho campo por recorrer).

Es prácticamente imposible diferenciar la interacción con el GPT-4o de la de un humano, quizá solo porque es mucho más espabilado, con un vocabulario más rico y no mete tanto la pata

La tercera cosa que aporta es un fine-tuning mucho mejor. Es prácticamente imposible diferenciar la interacción con el GPT-4o de la de un humano, quizá solo porque es mucho más espabilado, con un vocabulario más rico y no mete tanto la pata...

¿Y qué cambia todo esto? Uno de los sueños es cambiar la interfaz de usuario. Desde los años setenta estamos con las metáforas de las carpetas y los documentos, los clics y los ratones. ¡La interfaz natural de los humanos es el habla! Se ha intentado muchas veces, pero nunca se ha conseguido hacer una interfaz que realmente funcione como una conversación. Parece que ahora sí.

Obviamente, hay un factor que es el coste: aún es demasiado caro todo esto, pero el coste está bajando muy rápido

Ya hay resultados en esta línea, como la próxima integración de la IA con los sistemas operativos (Windows y Mac), pero sobre todo con el inminente acuerdo de OpenAI y Apple para que Siri funcione con GPT-4o.

El potencial que el cambio de interfaz abre es enorme: desde traductores automáticos hasta el uso en vehículos, televisores, electrodomésticos, enseñanza... Abre la puerta a una nueva era, una era que se caracterizará por la cointeligencia, por los copilotos. Y a toda una serie de tareas, como el servicio al cliente, que pueden ser totalmente automatizadas.

También hay un cambio de modelo de negocio de OpenAI. Pasamos del freemium, donde había usuarios de pago y de no pago como eje central, a un modelo de plataforma. El hecho de abrir los GPTs a todo el mundo hace que el modelo predominante sean emprendedores que harán GPTs y asistentes de los cuales OpenAI obtendrá un porcentaje. Esto no significa que las asociaciones tengan que desaparecer, ni el fin del Freemium, pero quien acabará dominando será la plataforma. No solo en cuanto a los ingresos, sino también al crecimiento.

¿Y los que pagan el Plus? Bueno, de momento se han quedado con pocos beneficios... ¡hasta que llegue el GPT-5!