Semana destacada para xAI con el anuncio de Grok 4, un modelo que ha superado todas las expectativas. Ha marcado un nuevo máximo en rendimiento, posicionándose como el modelo más avanzado hasta la fecha. Sus capacidades van más allá de la programación: promete integrarse en sistemas complejos como la robótica y la conducción autónoma, anticipando un futuro que llega mucho antes de lo previsto.

El anuncio viene acompañado de movimientos destacados en el ecosistema: OpenAI ha contraatacado fichando a cuatro ingenieros de primer nivel procedentes de Tesla, xAI y Meta. El mapa competitivo se está redibujando. Esto se traduce en una redefinición del marco competitivo, una batalla por los horizontales —como los chatbots y los modelos base que hacen funcionar agentes— sin perder de vista los verticales: desde los copilotos hasta la educación, el tratamiento de imagen y vídeo, que podrían redefinir la publicidad y el cine.

La gran incógnita es quién dominará estos verticales: ¿los grandes modelos integrando estas capacidades? ¿O bien actores especializados como Cursor o Perplexity? La respuesta condicionará la dinámica de la IA en los próximos años. Y mientras tanto, NVIDIA alcanza los 4 billones de dólares de valoración. Y según lo que hemos visto con Grok 4, esto no ha hecho más que empezar.

Grok 4: el salto adelante de xAI

Elon Musk ha presentado Grok 4 en dos versiones: la base y la “Heavy”, esta última un sistema multiagente donde varios modelos colaboran para resolver problemas. Los resultados son excepcionales. Grok 4 supera al resto de modelos en todas las categorías, con una mejora significativa en el benchmark Humanity Last Exam (HLE): un test de 2.500 preguntas de gran dificultad. Mientras que un doctor humano obtiene un 5% y los mejores modelos actuales un 25%-27%, Grok 4 Heavy alcanza el 45%. También destaca en voz, con cinco voces naturales capaces de cantar y responder con gran rapidez. En programación supera ligeramente a Claude 4, aunque se ha anunciado un modelo específico para esta tarea en pocas semanas.

¿Cuál es el secreto?

Grok entrena incorporando herramientas como la búsqueda web, la resolución matemática o la programación durante el entrenamiento, no solo a posteriori como es habitual. Esta integración profunda sugiere que aún queda mucho camino por recorrer, especialmente con más potencia computacional (buenas noticias para NVIDIA).

Próximos pasos: un modelo especializado en programación en semanas, un modelo multiagente que competirá con Manus y OpenAI tras el verano, y hacia finales de año, un generador de vídeo. A medida que la comprensión e interacción con el mundo físico aumentan, estos modelos se aproximan a la robótica y la conducción autónoma. También podrían revolucionar la ciencia mediante la generación y testeo masivo de hipótesis. ¿Cuánto cuesta? 30 dólares al mes, 300 para la versión Heavy.

Educación e IA: Google y OpenAI enfrentadas

Google ha ampliado su oferta educativa basada en IA: desde la generación de planes docentes hasta presentaciones, cuestionarios y tutores personalizados. También incorpora NotebookLM para pódcast, Gems (tutores alineados con currículums) y Vids para la generación de vídeo. Todo integrado en Google Classroom, junto con hardware como los Chromebooks.

El objetivo: mejorar la experiencia educativa existente avanzando hacia tutores personalizados, impartiendo contenido. Los estudios preliminares muestran una gran eficacia, pero aún estamos en las primeras fases.

OpenAI ha anunciado Study Together, un bot que ofrece aprendizaje personalizado, actualmente limitado a usuarios Plus en EE.UU. Esta entrada de los grandes modelos en el ámbito de la educación continua puede redefinir la Executive Education, territorio donde las grandes universidades aún no han entrado del todo, pero que plataformas como ChatGPT pueden transformar.

La psicología de los modelos: ¿colaboran o compiten?

Los LLM no tienen psicología propia, pero su entrenamiento (RLHF, SFT, IFT…) les confiere rasgos de comportamiento que simulan intenciones. Una investigación de Payne (King’s College) y Alloiu-Cros (Oxford) ha probado diversos modelos en juegos estratégicos como el dilema del prisionero. Los resultados (https://arxiv.org/pdf/2507.02618) son sorprendentes:

  • Gemini: implacable, explota a los cooperadores y se venga de los que escapan.
  • OpenAI: extremadamente cooperativo, lo que lo penaliza en entornos hostiles.
  • Anthropic: el más altruista, coopera incluso si es explotado reiteradamente.

Este comportamiento deriva del fine-tuning y puede variar entre versiones. Aun así, nos ofrece una nueva manera de estudiar los sesgos de los modelos: a través de las decisiones que toman. En un contexto donde los agentes toman decisiones reales basadas en estos modelos, su comportamiento social puede ser crítico.

Otros titulares destacados

  • China digitaliza la identidad: El 15 de julio se inicia un proyecto pionero de IDs digitales en China. El sistema garantiza el anonimato frente a empresas, pero con trazabilidad total desde el gobierno. Similar al éxito de India, este modelo podría expandirse globalmente.
  • IA Act, sin pausa: La UE ha rechazado una prórroga solicitada por empresas como Meta o Mistral. La norma entra en vigor el 2 de agosto de 2026, con un período transitorio hasta 2027. Aun así, el escenario político europeo puede traer cambios.
  • Apple abre el melón sucesorio: Jeff Williams, COO de Apple, se retira. Siempre había sonado como sucesor de Tim Cook. Ahora se abre una nueva etapa en la cúpula de la compañía.
  • Tesla y los robotaxis: Estreno en Austin con el Model Y y conductor de seguridad. Waymo llega a Nueva York. Los sistemas funcionan con teleoperadores remotos. Aunque las expectativas eran altas, la escala es lenta pero constante. El futuro será autónomo, sí, pero paso a paso.