No habían pasado ni unos minutos del anuncio de OpenAI que Elon Musk ya se apresuraba a señalar el benchmark donde Grok supera el GPT-5. ARC-AGI, un benchmark ideado por François Chollet y basado en puzzles que intenta medir la inteligencia fuera de contexto. En este reto, todos los modelos (Grok incluido) obtienen resultados bastante discretos.
Digerir y analizar a las dos nuevas familias de modelos de OpenAI, el GPT-5 y los modelos de código abierto GPT-oss ha marcado la semana. Y tendremos para rato, porque son modelos bastante diferentes de los anteriores y es previsible que vayan apareciendo nuevas versiones y, por lo tanto, nuevos análisis.
Todo eso mientras esperamos Gemine 3, el nuevo modelo de Google, del cual los leaks apuntan que volverá a subir el listón de los benchmarks. ¡Mientras tanto, la IA no hace vacaciones y han pasado más cosas!
El GPT5 genera todo tipo de opiniones
En general, todo el mundo coincide en que el GPT-5 es bastante mejor que el GPT-4, pero no extraordinariamente mejor. Ahora bien, hay un punto donde ha recibido muchas críticas. El GPT-5 se basa en un enrutador que dirige tu pregunta a un modelo más sencillo o más complejo según la dificultad que percibe.
El problema es que este enrutador tiende a enviar consultas hacia modelos demasiado simples, incapaces de resolver preguntas triviales como "¿Qué número es mayor, 9,9 o 9,11?" (y responder erróneamente 9,11) o contar el número de letras de un tipo concreto dentro de una palabra.
Eso obliga a cambiar un poco la manera de preguntar y, en general, el enfoque a la hora de utilizar el modelo. GPT-5 puede redirigir a siete modelos diferentes: nano, mini, main, thinking-nano, thinking-mini, thinking-pro y, además, el GPT-4 anterior, que se ha reincorporado a petición de los usuarios.
Modalidades disponibles:
-Auto. El modelo decide a qué submodelo enviar la consulta.
-Fast. Respuestas rápidas con modelos nano o mini.
-Thinking. Razonamiento extendido (cuenta, tiende a resumir y eliminar redundancias).
-Pro. Razonamiento extendido al nivel de un doctor especializado.
-GPT-4. Versión anterior, disponible por demanda.
El enrutador es la fuente principal de problemas, pero no el único cambio. Hay que recordar que, si utilizas modelos de razonamiento, los límites son inferiores; si es el modelo a quien decide, no. Una estrategia es añadir frases como "Piénsalo bien" para forzar el uso de estos modelos sin gastar créditos extras. El GPT-5 busca mejorar benchmarks, sin embargo, sobre todo, la experiencia de usuario.
Eso es más evidente en la escritura: escribe mejor, pero hace falta encaminarlo al modelo correcto y evitar, si hace falta, el razonamiento excesivo. También es mucho mejor funcionando como agente: puede ejecutar tareas largas sin problemas, pero necesita instrucciones muy concretas y, antes de empezar, hace muchas preguntas, cosa que puede resultar pesada. OpenAI ha publicado una prompting guide bastante técnica, más orientada a desarrolladores que al público general. Aquí tienes un hilo con guía extensa y el enlace oficial.
Resumen de técnicas útiles:
-Impersonar. Definir claramente el rol: "eres un periodista del NYTimes", "eres un economista famoso especializado en..." o "un consultor de McKinsey". El GPT-5 mejora mucho en este aspecto.
-Objetivo claro. Especificar el propósito y, si hace falta, el público destinatario (Un niño de 7 años, un profesor universitario o un lector de un diario generalista).
-Qué quieres y qué no quieres. Si prefieres evitar bullet points o subapartados, indícalo explícitamente de una manera muy clara.
-Longitud. Hay que indicarla, porque tiende a resumir demasiado y a sacar duplicidades.
-Programación. Especificar si buscas eficiencia, facilidad de uso, código modificable o detección de bugs.
En programación, el GPT-5 ha dado el salto mayor con respecto al GPT-4, situándose al nivel de Anthropic 4.1 o superior. No obstante, hay debate sobre si la mejora es real o solo marginal. Además, el GPT-5 permite personalizar el tono de respuesta con opciones como "palique", "agudo", "directo", "alentador", "Gen Z", "tradicional" o "previsor", y añadir rasgos propios. Lo encontraréis en "Personaliza el ChatGPT".
Perplexity quiere comprar Chrome
Perplexity, valorada en 15.300 millones de euros, ha ofrecido 29.400 millones para adquirir Chrome, el navegador de Google, valorado en 42.700 millones. La propuesta se enmarca en el contexto del juicio antitrust contra Google, que podría acabar obligándolo a vender Chrome. Así y todo, este escenario no parece el más probable. Recordamos que Perplexity también intentó comprar TikTok y mantuvo conversas con Meta sobre la operación.
La semana en la investigación
1. 'Benchmarks' dependiendo de los proveedores de modelos
AI Lab: Artificial Analysis
Artificial Analysis ha publicado un estudio interesante sobre las diferencias de rendimiento de los modelos en diferentes benchmarks dependiendo del proveedor. Han escogido los modelos Open Source d'OpenAI y las diferencias son muy notables. En el benchmark GPQAx16 va desde 78.8% hasta 70.7% y en AIME25x32 van desde el 93.3% a 78.3%. Azure y Amazon están en la cola de los resultados.
2. 'GPT-5 Siete the Stage for Ad Monetization and the SuperApp'
AI Lab: SemiAnalysis
Semianalysis ha hecho como siempre un excelente estudio sobre GPT5 desde el punto de vista del modelo de negocio y la monetización. Vale mucho la pena.
3. 'Group Sequence Policy Optimization'
Ai Lab: Qwen Team, Alibaba
DeepSeek hizo famoso el GPRO, una policy de reinforcement learning que mejoraba las que se utilizaban habitualmente. Este informe presenta el GSPO que es a nivel de secuencia y no a nivel de token y funciona especialmente bien en un entorno de Mixture of Experts.
4. 'Beyond Binary Rewards: Training LMs tono Reason About Their Uncertainty'
AI Lab: MIT
Cuando los modelos se entrenan con Reinforcement Learning (RL) no se penalizan las respuestas que son simplemente conjeturas o sobre las que se tiene un nivel de confianza bajo. Eso a menudo lleva a alucinaciones o respuestas incorrectas. Este informe presenta un método para evitarlo.
Otras noticias
-Claude Sonnet ahora tiene un contexto de un millón de tokens.
-Huawei desarrolla Unified Cache Manager (UCM), que incrementa el rendimiento hasta 22x y reduce la latencia un 90% utilizando estrategias similares a las de DeepSeek. La brecha con Nvidia poco a poco se va cerrando.
-Elon Musk amenaza con llevar Apple a los tribunales por supuesta manipulación del posicionamiento de Grok en la App Store.
-OpenAI invierte en Merge Labs, competidor de Neuralink.
-China pide a las empresas que justifiquen cualquier compra de chips Nvidia en lugar de los de Huawei (security concerns dicen).
-El chatbot de Anthropic ya recuerda conversaciones pasadas, como el de OpenAI.