La incorporación de Peter Steinberger, fundador de OpenClaw —el agente de moda del que todo el mundo habla— a OpenAI ha sido la noticia de la semana y, probablemente, el gran golpe de efecto de OpenAI. El mundo de los agentes personales y empresariales es, seguramente, el más activo estos días, y OpenClaw, con todas sus variantes como Motbot —la comunidad donde solo hay agentes y los humanos son espectadores— no solo ha dado mucho que hablar, sino que claramente abre la puerta a agentes que interactúan con el mundo y hacen cosas por nosotros: comprar, gestionarnos la agenda, recordarnos qué tenemos cada día o, incluso, hacer trabajos completos para nosotros. Seguro que veremos resultados concretos en forma de producto en OpenAI y en muchos otros.

Mientras tanto, Google ha sacado un nuevo modelo, el Gemini 3.1, y se ha vuelto a colocar a la cabeza de los rankings… hasta que llegue DeepSeek 4 y todo lo demás, claro. La discusión que la semana pasada inició Matt Shumer sobre la gran mejora en capacidades que están experimentando los modelos continúa viva y ya ha trascendido a la política. Como siempre, hay quien ve peligros y quien ve oportunidades. Pero los que se apresuran a materializar las oportunidades son los que capturan valor.

Mientras tanto, ¡todos esperando el nuevo modelo de DeepSeek y la avalancha que vendrá después, claro!

El Gemini 3.1 Pro

Google ha presentado Gemini 3.1 Pro, una actualización de su modelo insignia de IA que promete mejorar el razonamiento y la resolución de problemas complejos. La compañía asegura que el nuevo modelo ya está listo para los “retos más difíciles” y lo despliega en fase de previsualización tanto para desarrolladores como para usuarios finales. Según Google, la nueva versión es también el “núcleo” de las mejoras recientes de su modo Deep Think.

El anuncio llega acompañado de resultados en benchmarks: en Humanity’s Last Exam, Gemini 3.1 Pro consigue un 44,4%, por encima de Gemini 3 Pro (37,5%) y de GPT 5.2 (34,5%), siempre según las cifras facilitadas por la misma empresa. En otra prueba, ARC-AGI-2, enfocada a problemas lógicos nuevos y difíciles de anticipar con entrenamiento directo, Google afirma que el modelo pasa del 31,1% a un 77,1%. A pesar de estas mejoras, Gemini 3.1 Pro no lidera algunos rankings de evaluación basados en preferencias de usuario, como l’Arena (antes LM Arena), donde otros modelos lo superan ligeramente tanto en texto como en código. El artículo recuerda que este tipo de clasificaciones pueden premiar respuestas “convincentes”, aunque no sean necesariamente más correctas.

Google ejemplifica el salto del modelo con la capacidad de generar gráficos y simulaciones (como SVG) y apunta que los desarrolladores que construyen flujos agentics podrían notar una mejora, con un aumento notable en el benchmark APEX-Agents. Disponibilidad: Gemini 3.1 Pro llega hoy a AI Studio y Antigravity IDE (previsualización), y también a entornos corporativos como Vertex AI y Gemini Enterprise. Para el público general, se podrá utilizar desde la app Gemini y NotebookLM. Google mantiene los mismos precios de la API (2 dólares por 1M tokens de entrada y 12 dólares por 1M tokens de salida) y la misma ventana de contexto (hasta 1 millón de tokens de entrada y 64.000 de salida), y deja entrever que podría llegar pronto una actualización similar para el modelo flash, más rápido y económico.

OpenAI incorpora al fundador de OpenClaw y parte de su equipo

OpenAI ha confirmado la incorporación de Peter Steinberger, fundador de OpenClaw, junto con parte de su equipo, tras semanas de conversaciones avanzadas. El objetivo es que trabajen principalmente en agentes personales dentro de OpenAI, una de las áreas más estratégicas del sector. OpenClaw se ha convertido en un proyecto viral porque permite crear agentes capaces de controlar el ordenador y ejecutar tareas complejas (desde generar materiales de marketing hasta reservar citas), con la particularidad de que puede combinar modelos de IA de diversos proveedores y ofrecer un acceso muy amplio al sistema del usuario.

El movimiento también evidencia la guerra por el talento: Meta también intentaba fichar a Steinberger, ya que las grandes empresas compiten por liderar el mercado de los agentes. Paralelamente, OpenAI dará apoyo a la creación de una fundación que continuará supervisando el proyecto open source de OpenClaw. Steinberger, que hasta ahora financiaba personalmente el proyecto con entre 10.000 y 20.000 dólares mensuales, explica que no quiere convertir OpenClaw en una gran empresa y que unirse a OpenAI es la manera más rápida de llevar esta tecnología al gran público.

La rivalidad entre Sam Altman y Dario Amodei

Estos días hemos vuelto a ver un ejemplo de la extraordinaria rivalidad entre Sam Altman y Dario Amodei en el encuentro de la India. Sam Altman (OpenAI) y Dario Amodei (Anthropic), colocados uno al lado del otro en una foto de unidad con líderes políticos y tecnológicos, evitaron darse la mano y optaron por levantar el puño, un momento que se viralizó en las redes.

Más allá de la anécdota, la escena refleja la creciente competencia entre dos de las empresas que quieren marcar el futuro de la IA generativa. Anthropic ha aprovechado el debate sobre seguridad y alignment para posicionarse como la alternativa “responsable”, mientras OpenAI apuesta por la escala masiva y por estar presente en el día a día de los usuarios.

La tensión se ha hecho también pública en el terreno del marketing: Anthropic ha lanzado anuncios en la Super Bowl que ridiculizan la idea de introducir publicidad en chatbots, una línea que se ha leído como una crítica directa a los experimentos de OpenAI con formatos de anuncios. OpenAI ha respondido acusando estos mensajes de ser engañosos y elevando el tono del debate sobre quién está “vendiendo” mejor la narrativa de la seguridad.

Anthropic Sonnet 4.6

Anthropic ha presentado Claude Sonnet 4.6, la nueva versión de su modelo “Sonnet”, que describe como el más potente hasta ahora dentro de esta gama. La empresa asegura que es una actualización completa en capacidades clave como programación, uso de ordenadores, razonamiento con contexto largo, planificación de agentes, trabajo de conocimiento y diseño, e incorpora una ventana de contexto de 1 millón de tokens (en beta). Sonnet 4.6 ya es el modelo por defecto en claude.ai para los usuarios Free y Pro, manteniendo los mismos precios que Sonnet 4.5 (a partir de 3$/15$ por millón de tokens). Anthropic afirma que ahora ofrece rendimiento cercano a modelos “Opus” (más caros) en tareas de oficina y desarrollo, con mejoras destacadas en consistencia, seguimiento de instrucciones y reducción de alucinaciones.

Uno de los grandes focos es el computer use, es decir, la capacidad del modelo para operar aplicaciones como lo haría una persona (clicar, escribir, navegar por pestañas). Según Anthropic, Sonnet 4.6 muestra avances importantes en el benchmark OSWorld, y los primeros usuarios ya ven resultados casi humanos en tareas como gestionar hojas de cálculo complejas o completar formularios web. También destaca una mejor resistencia a los prompt injections, un riesgo crítico cuando los modelos interactúan con webs y sistemas reales.

Además, Anthropic subraya que Sonnet 4.6 ha sido sometido a evaluaciones de seguridad exhaustivas y que mantiene un comportamiento “prosocial” y estable. También amplía funcionalidades de plataforma: compatibilidad con adaptive i extended thinking, compresión automática de contexto y más herramientas avanzadas en la API (web search, fetch, ejecución de código y tool calling). Finalmente, la compañía mantiene que Opus 4.6 continúa siendo el modelo ideal para tareas de razonamiento extremo, pero que Sonnet 4.6 ya ofrece un equilibrio muy competitivo entre coste y capacidad, especialmente para agentes y desarrollo.

Waymo 6

Waymo ha anunciado el inicio de operaciones totalmente autónomas con su sistema de conducción de 6ª generación, un paso clave para expandir el servicio a más ciudades y entornos, incluidos climas con inviernos extremos. El nuevo driver reduce costes y mantiene los estándares de seguridad después de haber acumulado cerca de 200 millones de millas de conducción autónoma en más de diez grandes ciudades.

El sistema combina cámaras de alta resolución, lidar, radar y receptores de audio para detectar con precisión vehículos, peatones y situaciones complejas, incluso en lluvia, nieve o baja visibilidad. Waymo destaca que su enfoque es desarrollar un conductor autónomo adaptable a diferentes modelos de vehículo, con el objetivo de escalar la producción a decenas de miles de unidades anuales y acelerar el despliegue comercial.

Innovación de usuario, su mejor momento

Vivimos uno de los mejores momentos para la innovación de usuario. En todas las empresas, grupos y campeones de usuarios se afanan en crear automatizaciones, compartir prompts o, incluso, desarrollar verdaderos sistemas multiagente. Sistemas como Anthropic Code u OpenAI Codex lo hacen aún más fácil, derribando las barreras de entrada y haciendo que prácticamente todo el mundo pueda crear aplicaciones sofisticadas. El último ejemplo de todo esto ha sido la hackatón de Anthropic.

De entre 13.000 aplicaciones presentadas, el tercer puesto ha sido para un cardiólogo —Michal Nedoszytko—. Su proyecto postvisit.ai quiere guiar a los pacientes cuando dejan la consulta del cardiólogo en su vida diaria. Este doctor ha desarrollado su proyecto solo en 7 días y en medio de una intensa actividad asistencial y viajes entre Bruselas y San Francisco, obviamente con Anthropic Code y haciendo uso del gran contexto de que dispone Opus 4.6.

China convierte los robots humanoides en espectáculo nacional (y mensaje industrial)

China ha hecho viral su apuesta por los robots humanoides utilizando su escaparate mediático más potente: la CCTV Spring Festival Gala, el programa de Año Nuevo chino que ve prácticamente todo el país. En un segmento que ya corre por X y YouTube con millones de visualizaciones, varios robots aparecieron en escena haciendo kungfu, coreografías y sketches cómicos, integrados con actores y bailarines humanos. Entre los protagonistas había robots de Unitree, capaces de hacer rutinas marciales sorprendentemente complejas, incluyendo movimientos de equilibrio tipo drunken boxing y, sobre todo, una habilidad clave: recuperarse después de caer sin perder estabilidad. También participaron robots de Noetix, MagicLab y Galbot, mostrando coordinación en directo con personas, en un entorno de riesgo real (televisión en horario de máxima audiencia, sin margen para errores).

Detrás del show hay una estrategia clara: China quiere acelerar la convergencia entre IA + manufactura y está convirtiendo los humanoides en símbolo de modernización industrial. Según los datos citados, el país habría enviado el 90% de los 13.000 humanoides vendidos globalmente el año pasado y varias empresas prevén salir a bolsa en 2026, impulsadas por capital privado y apoyo estatal.

Es importante porque lo que se ha visto en el escenario no es solo marketing: un robot que mantiene el equilibrio, se recupera de un impacto y se mueve con seguridad junto a humanos está demostrando el tipo de control necesario para empezar a entrar en tareas industriales reales como picking & packing, inspección, manipulación de herramientas o montaje básico, especialmente en entornos “sucios” y cambiantes donde la automatización fija todavía falla. En resumen: China está alineando atención pública, política industrial e inversión en un mismo embudo. Y el mensaje es inequívoco: los robots humanoides ya no son solo demos de laboratorio, sino una apuesta por convertirse en mano de obra generalista en entornos productivos.

Apple prepara tres nuevos 'wearables'

Apple estaría intensificando el desarrollo de tres dispositivos con inteligencia artificial integrada, con el objetivo de reforzar su posición en la nueva ola de dispositivos personales inteligentes y anticiparse a la competencia. Entre los proyectos en marcha destaca uno pendiente con cámara e IA, de tamaño similar a un AirTag, pensado para llevar enganchado a la ropa. La compañía también trabaja en unas gafas inteligentes con IA, con el nombre interno N50, que podrían entrar en producción a finales de este año con vistas a un posible lanzamiento en 2027. Estas gafas incluirían una cámara de alta resolución y se posicionarían como un producto más “prémium” dentro de la gama de wearables de Apple.

Además, Apple estaría desarrollando AirPods con capacidades avanzadas de IA, integrados profundamente con su ecosistema. Todos estos dispositivos funcionarían en estrecha conexión con el iPhone y dependerían en gran medida de Siri como interfaz principal. El movimiento apunta a un cambio estratégico hacia el “ambient computing”, donde la IA no vive solo en el teléfono, sino que se integra de manera constante e invisible en objetos cotidianos. Apple quiere asegurarse un papel central en este nuevo escenario antes de que otros fabricantes consoliden su posición en el mercado.

La investigación en IA

Agentic Reasoning for Large Language Models / AI Lab: Illiois Urgana-Champaign, Meta, Amazon, Google DeepMind, UCSD, Yale

Este artículo es la mejor revisión sistemática del concepto de “razonamiento agéntico” que conozco. Aunque los LLM actuales muestran buen rendimiento en entornos cerrados —como problemas matemáticos o programación—, tienen dificultades en entornos abiertos, dinámicos y cambiantes. El “razonamiento agéntico” propone un cambio de paradigma: convertir los modelos en agentes autónomos capaces de planificar, actuar y aprender mediante la interacción continua con el entorno, integrando pensamiento y acción.

El estudio organiza este nuevo enfoque en tres niveles:
-Razonamiento agéntico fundamental: capacidades básicas de un solo agente (planificación, uso de herramientas, búsqueda) en entornos estables.
-Razonamiento autoevolutivo: agentes que mejoran con el tiempo gracias a feedback, memoria y adaptación en entornos cambiantes.
-Razonamiento colectivo multiagente: múltiples agentes que cooperan, se reparten roles y comparten conocimiento para alcanzar objetivos comunes.

Además, el texto diferencia dos formas de optimizar estos sistemas:
-In-context reasoning: mejoras durante la interacción (orquestación, flujos de trabajo adaptativos).
-Post-training reasoning: mejoras mediante entrenamiento adicional (reinforcement learning o fine-tuning supervisado).

La revisión analiza aplicaciones reales en ámbitos como ciencia, robótica, salud, investigación autónoma y matemáticas, y propone una hoja de ruta unificada para desarrollar sistemas agénticos más efectivos. Finalmente, identifica retos abiertos: personalización, interacciones a largo plazo, modelización del mundo, entrenamiento escalable multiagente y marcos de gobernanza para el despliegue en entornos reales.

Towards Autonomous Mathematics Research / AI Lab: Google DeepMind
Los avances recientes en modelos fundacionales han permitido desarrollar sistemas capaces de alcanzar nivel de oro en la Olimpiada Internacional de Matemáticas. Pero pasar de resolver problemas de competición a hacer investigación profesional implica gestionar bibliografía extensa y construir demostraciones de largo recorrido.

En este contexto, los autores presentan Aletheia, un agente de investigación matemática que genera, verifica y revisa soluciones de manera iterativa y completa en lenguaje natural. El sistema se basa en tres pilares: una versión avanzada de Gemini Deep Think para el razonamiento complejo, una nueva ley de escalado en inferencia que amplía el rendimiento más allá del nivel olímpico, y un uso intensivo de herramientas para navegar la complejidad de la investigación matemática.

Aletheia muestra capacidades que van desde problemas de olimpiada hasta ejercicios de nivel doctoral, y destaca tres hitos en investigación asistida por IA: la generación autónoma de un artículo sobre constantes estructurales en geometría aritmética; una colaboración humano-IA en resultados sobre sistemas de partículas (conjuntos independientes); y la evaluación semiautónoma de 700 problemas abiertos relacionados con las conjeturas de Erdős, con cuatro soluciones encontradas de manera autónoma.

Los autores proponen establecer estándares para medir el nivel de autonomía y novedad de los resultados asistidos por IA, así como crear “tarjetas de interacción humano-IA” para reforzar la trasparencia. Concluyen reflexionando sobre el futuro de la colaboración entre matemáticos y sistemas de IA y publican los prompts y resultados para facilitar el escrutinio público.

A Primer on Factory Economics for Startups / AI Lab: a16z
Hay un tipo de compañía, especialmente habitual en sectores de hardware, donde la ventaja competitiva no depende solo del producto final, sino del proceso de fabricación. Este modelo se conoce como The Factory is the Product, porque la fábrica —la capacidad productiva y la tecnología para fabricar— se convierte en el verdadero activo estratégico y en la principal propiedad intelectual.

Los autores explican que han trabajado con startups de motores para drones, actuadores de robots, PCB, componentes aeroespaciales o baterías, y que el denominador común no es el producto en sí, sino la capacidad de escalar la producción. Estas empresas no subcontratan la fabricación ni crean solo un diseño para terceros: desarrollan procesos industriales nuevos donde la tecnología de producción es el núcleo del negocio.

El texto sostiene que, a medida que más startups pasan de prototipos a producción masiva, entender las dinámicas económicas de una fábrica será clave para fundadores, directivos e inversores. Por ello, el documento se presenta como una guía inicial para ayudar a emprendedores orientados a producto a gestionar el paso hacia este modelo, explicando conceptos básicos de economía industrial, métricas operativas y estrategia de capital en empresas venture-backed donde la “fábrica” es, literalmente, el producto.

Otras noticias

-Los muy notables avances de la sanidad —pública y privada— en China continúan sorprendiendo a los usuarios occidentales. Muchos nos preguntamos por qué no copiamos su modelo en vez de insistir en el nuestro, que claramente está muy por debajo. Este es el último ejemplo.
-AMD empieza a utilizar la misma estrategia que NVIDIA proporcionando créditos a clientes; en este caso han sido $300M a Crusoe.
-Google ha anunciado Lyria3 para generar música: crea tracks de hasta 30 segundos a partir de texto.
-Meta quiere lanzar un SmartWatch en 2026 —Malibu 2— enfocado en health-tracking.
-ElevenLabs ya tiene un competidor open source, VoiceBox, ¡y parece que lo hace incluso mejor! 
-NYC descarta su plan para legalizar los robotaxis. El futuro tendrá que esperar en Nueva York. Mientras tanto China avanza sin parar.
-El primer Cybercab ya ha salido de la planta de Tesla en la Gigafactoría de Texas. Es un vehículo de dos plazas, sin volante ni pedales, destinado a hacer de robotaxi. El proceso de producción es nuevo y difícil, pero Tesla espera que pueda escalar a 5M de robotaxis por año.
-El Pentágono presiona a Anthropic para que colabore más en temas militares.
-Después de meses de conversación, Anthropic ha manifestado que no quiere participar en temas como armas autónomas.
-Si no has probado los plug-ins para Excel y PowerPoint, ya vas tarde...