¿Qué es un agente?

Los agentes no son una novedad. El concepto data de los años 90, o incluso antes, y se definía como un software con objetivos propios que interactúa con el mundo (el modelo BDI, para quien quiera profundizar).
Los modelos de lenguaje han recuperado esta idea: ahora disponemos de sistemas con objetivos, capaces de elaborar planes y usar herramientas para ejecutarlos —desde buscar en la web hasta escribir código en Python.

OpenAI ya había desarrollado agentes como o1, o3 y también Operator. El nuevo agente busca unificar las capacidades de búsqueda de los primeros con las de interacción web de Operator. Y aspira a realizar tareas como crear hojas de cálculo o presentaciones, reservar restaurantes o comprar entradas para conciertos.

Este es un cambio importante, que podría marcar no solo una década, sino quizá una nueva etapa en nuestra relación con la tecnología.

ChatGPT Agent

El miércoles 16 (sí, la semana pasada) OpenAI presentó su nuevo agente. Se parece a Manus y también a los anteriores o3/o4, pero ahora puede interactuar con cualquier sitio web.

¿Qué puede hacer?

  1. Búsqueda avanzada: Puedes pedirle un plan de negocio, un análisis del estado del arte de una tecnología o la mejor opción para desplegar un agente en la nube.
  2. Hojas de cálculo: Las rellena, las simula, crea nuevas… aún es básico, pero ya funcional.
  3. Presentaciones PowerPoint: Puede transformar documentos en presentaciones o hacerlas desde cero sobre un tema concreto. No es espectacular, pero mejorará (y tal vez Manus aún lo supere en este aspecto).
  4. Planificación y compras: Desde planificar vacaciones y buscar el mejor precio hasta añadir todos los ingredientes de un Hot Pot o una paella al carrito de la compra en Bon Preu, con el enlace listo para comprar. Impresionante, aunque el pago final lo debes completar tú.

Es evidente que esto abre la puerta a una web pensada no solo para humanos, sino también para agentes que interactuarán entre sí. Habrá que rediseñar sitios web para hacerlos eficientes para ellos —agentes que, por cierto, ignoran totalmente la publicidad.

Aún es una versión inicial. No puede hacer pagos directos (todavía), y rechaza acciones de riesgo (como transferencias), pero eso puede cambiar pronto.

¿Merece la pena pagar la suscripción Pro para usarlo más tiempo? Quizá aún no. Pero no tardará en justificarse.

Una nueva frontera

Este nuevo agente de OpenAI se parece a Grok 4 y difiere de Manus en un punto clave: mientras Manus usa herramientas tras entrenar el modelo, Grok 4 y el agente de OpenAI las incorporan durante el entrenamiento. ¿El resultado? Son mucho mejores usándolas y, además, obtienen mejores resultados en benchmarks tradicionales. Son modelos nuevos, no los que conocíamos.

Es una nueva frontera que acaba de empezar. Ahora tienen pocas herramientas, pero eso irá cambiando. Y con más herramientas… más capacidades.

Por cierto, OpenAI ya trabaja en una funcionalidad de checkout para los productos que se compren con el agente. Un paso obvio hacia la integración vertical y la captura de valor.

El Open Source es Chino

Estos días también hemos visto cómo han aparecido dos nuevos modelos Open Source chinos: el Qwen 3 de Alibaba, aquí tienes los resultados: 

A graph of different colored bars

AI-generated content may be incorrect.

y el Kimi K2 de Moonshot, aquí los resultados:

Bar chart comparing LLMs like Kimi-K2, GPT-4.1, Claude, and Gemini on coding, tool use, and math benchmarks.

Como se puede ver, ambos modelos igualan o incluso superan el rendimiento de Claude Opus 4 y DeepSeek V3. Cada generación mejora la anterior —no es ninguna novedad—, pero ahora mismo son los modelos chinos los que marcan el ritmo en el ámbito Open Source.

Mientras tanto, Meta se plantea si continuar invirtiendo en Open Source tras las enormes inversiones realizadas; tampoco tenemos noticias de un modelo Open Source por parte de OpenAI. Es comprensible: si alguien lanza un modelo que funcione tan bien como el GPT-4o, pero con mejor rendimiento para plantar cara a los chinos, ¿quién comprará modelos de pago?

Todo parece indicar que el Open Source acabará siendo mayoritariamente chino, cubriendo la demanda de un mercado que no siempre necesita modelos extremadamente sofisticados.

¿Y Europa? ¿Dónde están los modelos Open Source europeos? Más allá de la falta de organizaciones con suficiente capacidad para competir (se habla de que Apple podría adquirir Mistral…), la legislación europea lo hace prácticamente imposible.

¡El Open Source parece que será chino!

OpenAI y Google: medalla de oro en las Olimpiadas Matemáticas

La IMO (International Mathematical Olympiad) es la competición de matemáticas preuniversitaria más prestigiosa. Son seis problemas durísimos repartidos en dos sesiones de 4,5 horas.

Los modelos de lenguaje compiten desde hace tiempo, con resultados modestos. Esta vez, Gemini 2.5 logró un 31 % y o3 un 16 %. Pero dos modelos experimentales —uno de OpenAI y otro de Google DeepMind— resolvieron 35 de 42 problemas, ganando la medalla de oro. No es GPT-5. Son modelos de razonamiento puro, sin usar herramientas.

Y esto es importante: si ya hacen esto sin herramientas, ¿qué podrán hacer cuando las incorporen?

El ganador humano fue un chino que resolvió los 42 problemas. Los tres primeros clasificados fueron chinos. Un nivel impresionante.

Este es un paso relevante. Aunque los modelos actuales ya son extraordinariamente competentes en resolver problemas conocidos, aún presentan limitaciones al razonar sobre problemas nuevos o hacer descubrimientos originales.

Y esto es clave: el gran objetivo es que estos modelos sean capaces de impulsar el progreso científico y tecnológico por sí mismos, resolviendo retos inéditos y generando nuevas aplicaciones. Si lo logramos, estaremos ante un salto cualitativo para la humanidad.

Es la puerta de entrada a una nueva era: una inteligencia artificial no solo útil para optimizar procesos o generar contenidos, sino capaz de contribuir activamente al conocimiento y la innovación.

ATCoder 2025: OpenAI, segundo

OpenAI ha quedado segundo en ATCoder 2025, una de las competiciones de programación más exigentes del mundo. Ganó Przemysław Dębiak, un programador polaco, pero el modelo de OpenAI lideró durante gran parte de la competición.

Otra prueba de que los modelos de lenguaje ya están a un nivel extraordinario en programación.

En la misma línea, han empezado a filtrarse los resultados de o3-alpha, el agente especializado en programación de OpenAI, y parecen espectaculares.

Uber entra en la carrera de los Robotaxis

Uber era el ausente en la carrera por los robotaxis. Abandonó el desarrollo propio hace tiempo, pero ahora se ha aliado con Lucid (vehículos) y Nuro (software). El objetivo: desplegar 20.000 robotaxis, con inversiones millonarias en ambas empresas.

Waymo, Tesla, Uber, Baidu, BYD… la competición está servida. Y el futuro de la movilidad urbana cambiará radicalmente.

Thinking Machines Lab: la empresa de Mira Murati

La nueva empresa de la CTO de OpenAI, Thinking Machines Lab, ha recaudado 2.000 millones de dólares y está valorada en 10.000 millones. ¿Qué quieren hacer?

Personalizar modelos de lenguaje para empresas, alineando las respuestas de sus chatbots con sus objetivos y KPIs. Un paso más en la dirección del fine-tuning y de la optimización empresarial.

El futuro puede ser de los agentes, sí, pero también de los modelos personalizados. Y aquí, Thinking Machines Lab quiere liderar.

¿Quieres saber más sobre los 'Transformers'?

Para quien quiera profundizar en las arquitecturas de transformers, aquí tienes un gran recurso técnico de Sebastian Raschka:

🔗 The Big LLM Architecture Comparison

Una excelente panorámica de cómo hemos llegado hasta aquí. Es una evolución que, como todas, se construye “on the shoulders of giants”.
 

Otras noticias

  • AWS despide a más trabajadores. AWS, con 115.000 empleados, no es precisamente una empresa pequeña, pero entre las grandes inversiones en IA generativa y las eficiencias ganadas, parece que necesita menos personal. La próxima ola (GPT-5 y similares) no solo hará código, sino también ingeniería de software; esto acaba de empezar. Un ejemplo: AWS ha despedido al 40 % de su equipo de DevOps y lo ha sustituido por agentes de IA.
  • Cursor bloquea los modelos estadounidenses en China. El agente de programación más popular impide ahora el acceso a los modelos americanos desde territorio chino, aunque muchas universidades y hoteles mantienen internet libre.
  • 1 millón de GPUs. OpenAI prevé tener en línea 1 millón de GPUs antes de fin de año. Una apuesta clara por la mejora a través de inferencia masiva.
  • Apple podría comprar Mistral. Parece que Apple está en conversaciones con Mistral y podría acabar adquiriéndola.