Esta ha sido la semana de OpenAI. Han presentado dos modelos GPT 5 y GPT-oss. Ninguno de los dos ha defraudado. Primero OpenAI presentó su modelo Open Source, o mejor dicho, Open Weights. Se trata de un modelo excelente, aunque limitado, que nos hizo pensar cómo será el próximo GPT-5 si este ya funciona tan bien como o3-mini/o4-mini.
Os preguntaréis por qué OpenAI saca un modelo Open Source. La respuesta es relativamente sencilla: si los modelos abiertos existen, mejor que sean los suyos. Efectivamente, es un punto de entrada a la familia de modelos de OpenAI. Los ingresos vendrán tanto del uso directo (el caso de ChatGPT) como de los agentes que utilizarán estos modelos para cumplir sus tareas. Por lo tanto, dominar el espacio con una única interfaz es sin duda importante, como también lo es ampliar todavía más el mercado intentando que todo el mundo adopte estos modelos.
Y obviamente, también tenemos que considerar los motivos altruistas y sociales —porque las empresas comerciales también tienen, no solamente las nonprofit o las públicas pagadas con impuestos. Después han presentado GPT 5, un modelo que ciertamente lo hace mejor en todo, pero donde se ha puesto más énfasis es en la interacción, tanto con los usuarios como en términos de seguridad y sobre todo con los programadores. Su comportamiento es el del ayudante experto que siempre has querido tener, con un doctorado y de una buena universidad.
Tenemos el contraataque de Anthropic. También la respuesta a una pregunta difícil: ¿por qué Meta gasta tanto dinero en IA y paga los sueldos y las bonificaciones que paga? ¡Sin duda, una semana que ha dado mucho de que hablar!
El modelo GPT5
Solo puedo decir que me ha dejado impresionado. Llega un punto en el cual los benchmarks sirven de poco, porque están saturados. Seguramente hay que inventar de nuevos porque pronto buena parte de los modelos llegarán al 100%. El GPT 5 lo hace mejor, sí, muchos pensábamos que a partir de ahora la mejora sería incremental y no es el caso. Hay cuerda para mucho rato.
GPT 5 evals 👇👇👇 pic.twitter.com/DvV148VTSL
— esteve almirante (@ealmirall) Augusto 7, 2025
Pero es un modelo que busca ser tu ayudante, busca ser el mejor compañero de trabajo posible para ti, especialmente en desarrollo de software, en donde se sitúa como el mejor modelo del mercado.
GPT 5 coding 👇👇👇 pic.twitter.com/xVJJYUb7hy
— esteve almirante (@ealmirall) Augusto 7, 2025
Pero también con otras tareas como escribir, en dónde es capaz de capturar lo que quieres escribir y cómo lo quieres escribir. Si crees que los modelos de OpenAI escribían bien, espera a ver el GPT 5.
GPT 5 👉 writing 👇👇👇 pic.twitter.com/AbBklGgZIY
— esteve almirante (@ealmirall) Augusto 7, 2025
El modelo busca comportarse como tu asistente y puede acceder a tu calendario, ordenarte citas y, en definitiva, ser tu agente personal. En este aspecto, se ha puesto mucho énfasis en los temas de seguridad, ya no contesta negándose a hacer cosas, sino que explica el porqué no contesta.
También han trabajado de manera muy especial su uso en campos como la medicina, la biología, las leyes, las finanzas y también en investigación científica, en donde parece que abrirá puertas hasta ahora inéditas. Pero en donde ha mejorado muchísimo es en su uso para hacer agentes, donde tienes mucho más control. También ha mejorado mucho su interacción con voz, que ahora no tiene limitaciones de duración y piensan que puede ser muy útil en educación.
Donde brilla realmente es haciendo código. Michael Truell, el CEO de Cursor (la herramienta estrella para hacer código) ha presentado parte del apartado de codificación y ha declarado que era el mejor modelo que nunca había visto para codificar. Las demostraciones de código han sido espectaculares, no solo construyendo front-ends, sino especialmente encontrando errores en grandes bases de código y arreglándolos en solitario. Aquí tenéis el nuevo ranking de los modelos.
OpenAI gave us early access to GPT-5: our independent benchmarks verify a new high for AI intelligence. We have tested all four GPT-5 reasoning effort levels, revealing 23x differences in token usage and cost between the 'high' and 'minimal' options and substantial differences in… pic.twitter.com/TcabsFdycG
— Artificial Analysis (@ArtificialAnlys) Augusto 7, 2025
El modelo está disponible en todos los usuarios de OpenAI, incluidos los gratuitos. OpenAI ha liberado su modelo Open Source, GPT-oss, en dos versiones: una de 120b (117B de parámetros) y una de 20b (21B de parámetros). Si lo quieres instalar localmente, para el de 120b necesitarás 80GB, mientras que para el de 20b solo 16GB.
Su rendimiento es comparable a o3-mini e igual o mejor que o4-mini. Las dos versiones utilizan una arquitectura Mixture of Experts (MoE) muy frugal: el de 120b activa solo 5.1B de parámetros por token, y el de 20b activa 3.6B. Es decir, tendrás un rendimiento muy bueno en local.
Los modelos han sido entrenados con un dataset básicamente en inglés, y están focalizados en conocimiento general, STEM y programación. No son multimodales, solo texto. Sin embargo, los desarrolladores tienen un margen amplio de maniobra. Pueden seleccionar el nivel de esfuerzo del modelo o utilizar herramientas.
We released two open-weight reasoning models—gpt-oss-120b and gpt-oss-20b—under an Apache 2.0 license.
— OpenAI (@OpenAI) Augusto 5, 2025
Developed with open-source community feedback, these models deliver meaningful advancements in both reasoning capabilities & safety.https://t.co/PdKHqDqCPf
gpt-oss-120b matches OpenAI o4-mini on core benchmarks and exceeds it in narrow domains like competitive math or health-related questions, all while fitting on a single 80GB GPU (or high-end laptop).
— OpenAI (@OpenAI) Augusto 5, 2025
gpt-oss-20b fits on devices as small as 16GB, while matching or exceeding… pic.twitter.com/Zn2wDiWcNb
Os preguntaréis cómo se comparan con otros modelos Open Source. Lo hacen un poco peor que Alibaba Qwen o DeepSeek R1, pero por bien poco. El modelo pequeño funciona sorprendentemente bien.
Independent benchmarks of OpenAI's gpt-oss models: gpt-oss-120b is the most intelligent American open weights model, comes behind DeepSeek R1 and Qwen3 235B in intelligence but offers efficiency benefits
— Artificial Analysis (@ArtificialAnlys) Augusto 6, 2025
OpenAI has released two versions of gpt-oss:
➤ gpt-oss-120b (116.8B total… pic.twitter.com/0mLCKh05MY
Ahora bien, con respecto a la relación entre coste y rendimiento, es inmejorable.
Pricing: Across the API providers who have launched day one API coverage, we're seeing median prices of $0.15/$0.69 per million input/output tokens for the 120B and $0.08/$0.35 for the 20B. This makes both gpt-oss models highly cost efficient options for developers. pic.twitter.com/8ABs0JTuw9
— Artificial Analysis (@ArtificialAnlys) Augusto 6, 2025
Con respecto al número de parámetros, es el modelo más inteligente que cabe dentro de una H100.
Intelligence vs. Total Parameters: gpt-oss-120B is the most intelligence model that can fit on a single H100 GPU in its native precision. pic.twitter.com/kzBxXOGC6V
— Artificial Analysis (@ArtificialAnlys) Augusto 6, 2025
En resumen. Buenos modelos, en línea con los mejores Open Source y comerciales. Con una relación entre coste y rendimiento excelente, lo bastante pequeños para ejecutarse in-house. Pero no son multimodales, cosa que limita bastante sus funcionalidades. Por su parte, Anthropic ha sacado una mejora de su modelo Claude Opus: la versión 4.1. Hay actualizaciones en temas de agentes, razonamiento y programación.
Today we're releasing Claude Opus 4.1, an upgrade to Claude Opus 4 on agentic tasks, real-world coding, and reasoning. pic.twitter.com/25vh0b3FsX
— Anthropic (@AnthropicAI) Augusto 5, 2025
El plan secreto de Meta
Mark Zuckerberg ha concedido una entrevista a The Information, donde ha desgranado los planes de Meta. El motivo central de su reacción no es que los resultados de Llama4 sean malos (que quizás también), sino la convicción generalizada de que tendremos AGI en cinco o siete años como mucho. Según él, eso quiere decir que hay que actuar como si fuera dentro de dos o tres años.
La razón no lo explica, pero es evidente. Todo siempre tarda más de lo previsto y, si tú eres el primero, tendrás tiempo de equivocarte, rectificar y conseguir ventajas competitivas que los otros no podrán ni soñar.
Cómo hacerlo parece obvio. Depende del talento. Por lo tanto, hay que construir un equipo tan bueno como sea posible. Esta es la razón por la cual ha creado el super intelligence team. Cuando le preguntan por qué estos sueldos tan elevados y si son sostenibles, él responde que estos equipos son en realidad muy pequeños (cierto, el equipo que ganó la olimpiada matemática era de 3 personas en OpenAI, y similar en Google). Por lo tanto, el coste total no es tan grande.
Un tema clave en la contratación es la propuesta. En este caso es doble: trabajar en el mejor equipo del mundo y hacerlo con los centros de cálculo mayores del mundo. Eso te da una clara ventaja, casi la garantía de que serás relevante.
Finalmente, el tema más importante: ¿qué harán?
La respuesta es clave. No se trata de perseguir el AGI o de construir los mejores agentes para empresas. Se trata de la gente. Quieren transformar la vida y las relaciones personales con dos innovaciones: IA generativa y gafas holográficas. Hablamos, pues, de ocio, asistentes personales, crecimiento personal y relaciones sociales.
Una reflexión importante. Estas dos tecnologías son como las gafas para quien tiene problemas de visión. ¡Nadie renunciará a tenerlas! Quizás después de esta entrevista se entiende mejor lo que está pasando.
El 'Wide Research' de Manus
Manus ha presentado una versión mejorada de su agente. Ahora es capaz de activar hasta 100 subagentes. Eso tiene implicaciones importantes en términos de velocidad —funciona mucho más rápido que el de OpenAI, por ejemplo— pero también con respecto a la diversidad de tareas que pueden cumplir.
Por ejemplo, si le encargas hacer 100 anuncios diferentes de un mismo acto, te encontrarás con 100 resultados realmente diferentes, porque han sido generados por agentes diferentes que no comparten contexto. También han mejorado las salidas en hojas de cálculo, web o presentaciones. Hoy por hoy, es el mejor agente generalista del mercado.
Introducing Wide Research pic.twitter.com/Hm1c3rTGrV
— ManusAI (@ManusAI_HQ) July 31, 2025
Lyft, Europa y Baidu
Lyft ha llegado tarde a Europa y al mundo de los robotaxis, pero parece que se está poniendo las pilas. Como sabéis, compró FreeNow y ahora está presente en Europa y también en España. Pues bien, la empresa ha llegado a un acuerdo con Baidu para integrar sus robotaxis a la aplicación de Lyft fuera de China y de los Estados Unidos. ¡Quién sabe si pronto veremos robotaxis de Baidu en España y en Barcelona!
Compensaciones millonarias en Microsoft
Se han filtrado los salarios y compensaciones en Microsoft, seguramente como respuesta a la presión de Meta. Después de 30 años, un ingeniero puede llegar a retirarse con unos ahorros acumulados de hasta 11 millones de euros, cosa que, retirando un 4%, le permitiría disponer de 445.000 euros anuales.
Microsoft just leaked their official compensation bands for engineers.
— Deedy (@deedydas) July 31, 2025
We often forget that you can be a stable high-performing engineer with
great work-life balance, be a BigTech lifer and comfortably retire with a net worth of ~$15M! pic.twitter.com/XL64X3pHUc
El proyecto Stargate Norway
OpenAI ha llegado a un acuerdo para construir Stargate Norway, el centro de IA más grande de Europa, con 100.000 GPUs Nvidia y un consumo de 230 MW. Entrará en servicio en el 2026, funcionará al 100% con energía verde (hidroeléctrica de una gran central próxima) y dará servicio al norte de Europa y al Reino Unido. Utilizará refrigeración líquida en circuito cerrado directamente sobre las GPUs, y el calor sobrante se aprovechará para alimentar empresas de la región. Todo un ejemplo de cómo construir centros de IA con un impacto ambiental mínimo.
En otro orden, Grok ha presentado Grok Imagine, su propuesta de text-to-video que, como el Veo3 de Google, incorpora imagen y sonido. Puede generar hasta seis minutos de vídeo y también permite editarlos. Estará disponible para las cuentas Super Grok (25 euros mensuales) y la disponibilidad general llegará en octubre.
¿Cómo puede China ganar a los EE.UU. en IA?
Andrew Ng ha publicado un post interesante sobre las posibilidades reales de China en comparación con los Estados Unidos en la carrera para la IA. Los argumentos no son nuevos, se parecen mucho a los que ya hemos escuchado en debates sobre la estrategia IA+ china, de Jei Tang (Tsinghua) y de otros. China domina claramente en modelos Open Source y tiene el contexto a favor suyo.
La velocidad es clave en el crecimiento, porque determina también la velocidad a la cual se innova. En los Estados Unidos, en cambio, los modelos cerrados dependen de descubrir los secretos de estos nuevos desarrollos, cosa que implica contratar investigadores a precios muy elevados. Eso no solo es caro, sino también lento.
También hay diferencias en hardware. En Occidente tenemos el GB200 NVL72, mientras que Huawei ofrece el Cloud Matrix 384. Los chips de Huawei individualmente tienen una tercera parte de potencia y consumen cuatro veces más, pero a nivel de rack son bastante equivalentes. El consumo, eso sí, es más alto, pero China es líder mundial en renovables y no tiene problemas energéticos como los Estados Unidos u Occidente.
Mientras tanto, en China todo fluye con más libertad y velocidad. Si mantienen este contexto, podrían ganar fácilmente a los Estados Unidos. Hay un segundo vector clave: la captura de valor proviene de la adopción de la innovación. Una economía dinámica basada en código abierto puede facilitar mucho la adopción generalizada. Ya lo vemos: muchos coches y robots chinos ya incorporan interfaces con DeepSeek, mientras que en Occidente solamente Tesla lo ha integrado con Grok. Europa ni está ni se lo espera. Ni siquiera se menciona en el artículo.
Lo más destacado en investigación
Estos son los dos papeles que acompañan el lanzamiento del modelo Open Source de OpenAI. El primero explica en detalle cómo está construido el modelo. El segundo describe los métodos que se han utilizado para estimar y minimizar los riesgos de los modelos Open Weight de OpenAI.
Steven Willmott, un buen amigo que escribe una de las mejores newsletters del ámbito, nos propone este papel sobre modelos jerárquicos de razonamiento. Hay mucho interés y mucha investigación en el mundo post-transformer, y este es un buen ejemplo.
Se trata de un modelo inspirado en el funcionamiento del cerebro humano, que utiliza dos módulos recurrentes. Uno para la planificación a alto nivel (más abstracta), y otro para la de bajo nivel. Lo que lo hace sumamente interesante es que requiere muy pocos ejemplos (solo 1.000), es pequeño, podría ser hasta 100 veces más eficiente que los transformers actuales y funciona extraordinariamente bien en problemas abstractos: ARC-AGI 40.3%, Sudoku-Extreme 55%.
Otras noticias
- Future Era, una tienda de Shenzhen, ya vende robots modulares: puedes montar el robot que más te guste.
- Apple ha experimentado el crecimiento de ingresos más importante desde el 2021, con un aumento del 10%; las ventas de iPhones han crecido un 13%.
- El BSC ha enviado a producción el procesador Cinco Ranch RISC-V, que será fabricado por Intel.
- TSMC ha despedido a varios empleados acusados de espiar para China. Han sido detenidos por el gobierno de Taiwán.
- Apple también está trabajando con Brain-Computer Interfaces: recientemente se ha publicado un vídeo donde un iPad es controlado por el cerebro mediante un implante insertado por un catéter en la vena yugular.
- Reflection AI, una empresa emergente fundada por investigadores de DeepMind, ha conseguido 860 millones de euros. Quiere competir en el mercado Open Source, ahora dominado por China.
- Gemine 2.5 Deep Think, el modelo que ganó la medalla de oro en la olimpiada de matemáticas, ya está disponible para los usuarios de Gemini Ultra.
- Los usuarios de pago de OpenAI ya llegan a los 5 millones. La empresa espera alcanzar unos ingresos anuales recurrentes de 17.100 millones de euros antes de acabar el año.
- Parece que Apple ha creado un grupo denominado Answers, Knowledge and Information con el objetivo de construir una herramienta tipo ChatGPT que recoja información de la web y se integre con Siri, Safari y otros productos.