Google fue la pionera en inventar la inteligencia artificial generativa, pero la investigación de OpenAI fue la que realmente la hizo útil para el gran público. Aunque Google ha invertido una gran cantidad de recursos tanto en modelos de imagen como de lenguaje, sus productos, a pesar de ser muy competentes, nunca habían conseguido situarse a la cabeza. Pues bien, este momento ha llegado. El lanzamiento de Gemini 3, a pesar de ser discreto, ha inundado redes sociales y plataformas de vídeo con análisis y pruebas por parte de los primeros usuarios.
Ya se han publicado los resultados de los benchmarks, que no dejan ninguna duda: hoy por hoy, Gemini 3 es el mejor modelo de IA. Pero las noticias no acaban aquí. Esta semana también hemos visto el anuncio, posiblemente de gran trascendencia, del Proyecto Prometheus de Jeff Bezos. Si alguien pensaba que la IA Generativa había alcanzado un techo y comenzaba a estancarse, esta semana nos confirma que la competencia y la innovación están más vivas que nunca.
Gemini 3, un nuevo umbral de rendimiento
Gemini ya es una plataforma masiva, con más de 650 millones de usuarios y 13 millones de desarrolladores utilizándola para crear agentes. Gemini 3 se ha posicionado como el mejor modelo disponible según el Artificial Intelligence Analysis Index, un índice que combina diversos indicadores. El agente de Google alcanza el primer puesto en cinco de los diez componentes del índice. Destacan especialmente sus resultados en la medición de conocimientos profundos, como el test Humanity’s Last Exam, donde obtiene calificaciones muy altas, y sus capacidades argumentativas, que han mejorado de manera sustancial, sobre todo en la programación (alcanzando el 56% en SciCode). También cabe remarcar su funcionalidad multimodal, que incluye la capacidad de procesar vídeo, audio, imagen y, obviamente, texto.
Una de las características técnicas más importantes es su velocidad. Es significativamente más rápido que rivales como GPT-5.1 (versión high), Grok 4 o Kimi K2 Thinking, un hecho que sugiere que utiliza una arquitectura de modelo de grandes dimensiones como el tipo MoE (Mixture of Experts). Esta complejidad tiene beneficios e inconvenientes. Por un lado, ofrece unos resultados de precisión impresionantes. Por otro lado, sus resultados en la gestión de las alucinaciones (generar datos falsos) son notablemente inferiores, un campo donde Claude 4.1 y GPT 5.1 continúan siendo los modelos líderes.
Además, es uno de los modelos más costosos de operar. Uno de los aspectos más significativos es su mejora en la comprensión del mundo real. Este conocimiento es cada vez más crucial a medida que la IA se fusiona con la robótica y los sistemas físicos. Esto ha comportado una mejora muy grande en rankings donde la clave es encontrar patrones y dibujos, como el ARC-AGI-2, donde consigue un salto cualitativo sorprendente.
En definitiva, estamos ante un salto de gigante por parte de Google, que establece un nuevo punto de referencia en la competición. De momento, las inversiones hechas en Meta no parecen dar resultados concluyentes. Ahora habrá que ver cuál será la respuesta de OpenAI, Grok y los modelos chinos ante este nuevo desafío. Lo que es indudable es que pronto tendremos agentes autónomos capaces de trabajar sin interrupciones durante períodos extensos.
Prometeo, el agente ingeniero
Prometheus es el nuevo proyecto de Jeff Bezos, donde él mismo tendrá un papel ejecutivo junto con Vik Bajaj. La empresa ha conseguido capturar talento de élite de OpenAI, DeepMind y Meta, reuniendo cerca de 100 ingenieros de alto nivel. El proyecto ha conseguido una inversión de 6.200 millones de dólares. El objetivo es claro: crear un agente capaz de hacer experimentación y solucionar problemas complejos en el mundo real. Esto incluye retos de ingeniería aeroespacial, vehículos autónomos, logística y diseño de ordenadores.
La intención es construir un agente de IA que pueda aumentar y, eventualmente, sustituir las capacidades de ingenieros experimentados, llevando a las empresas de Jeff Bezos a un nivel de desarrollo sin precedentes. Esta no es una idea aislada; de hecho, se ha convertido en el nuevo foco de las empresas emergentes más brillantes de Silicon Valley: desarrollar agentes que actúen como investigadores e ingenieros y que puedan interactuar con productos reales. Esto les permitiría competir basándose en la innovación, superando las limitaciones actuales del talento humano. El objetivo final es crear un mundo donde algunas empresas dispongan de talento de investigación e ingeniería de alto nivel ilimitado.
La IA en la investigación
Kosmos
AI Lab: Edison Scientific
Un agente que hace ciencia es un programa informático avanzado, como un asistente virtual, diseñado para ayudar o llevar a cabo tareas de investigación científica. Estos programas utilizan modelos de inteligencia artificial para procesar grandes cantidades de datos, como artículos, experimentos o resultados de análisis. Su función principal es poder sintetizar esta información, detectar patrones, formular hipótesis e, incluso, diseñar nuevos experimentos. Actúan como un socio colaborador que puede realizar de forma automática muchas de las tareas de análisis e investigación que, de otra manera, requerirían meses de trabajo de un científico humano.
SIMA 2 – Un agente que juega, razona y aprende contigo en mundos virtuales 3D
AI Lab: Google DeepMind
SIMA 2, impulsado por Gemini, es un nuevo agente de inteligencia artificial diseñado para operar en juegos 3D comerciales y generados por IA. Este agente utiliza su capacidad de "ver" la pantalla y controlar el juego mediante un teclado y ratón virtuales. A diferencia de las versiones anteriores, SIMA 2 es notablemente más autónomo: puede establecer sus propios objetivos, explicar sus planes y generalizar habilidades a través de diferentes juegos. Además, continúa mejorando constantemente gracias al autojuego en entornos virtuales diversos.
Otras Noticias
- Anthropic, Microsoft y Nvidia han anunciado una alianza estratégica en la que Anthropic se compromete a adquirir 30.000 millones de dólares en computación y en servicios de Microsoft Azure, mientras que Microsoft escalará su infraestructura hasta 1 GW.
- La valoración de Anthropic ya se sitúa alrededor de los 350.000 millones de dólares.
- NotebookLM ahora es capaz de entender apuntes manuscritos, fotografías y esquemas, consolidándose como una herramienta de aprendizaje imprescindible.
- Nano Banana 2 está a punto de salir.
- Grok ha presentado su actualización Grok 4.1, centrada sobre todo en mejorar la interacción con el usuario.
- OpenAI está probando conversaciones de grupo en ChatGPT.
- Elon Musk podría obtener hasta 1.000 millones de dólares si gana la demanda contra OpenAI.
- Grok 5 no llegará hasta el año que viene.
- Alibaba ha negado públicamente que su tecnología dé soporte al armamento o infraestructuras militares chinas. Aun así, la comunidad internacional ha recibido la declaración con escepticismo, y cuesta entender por qué la compañía ha optado por un mensaje tan poco creíble.
