Imagina que te prometen un asistente personal impecable, un agente de inteligencia artificial que no solo conversa, sino que ejecuta tareas tales como buscar productos reales, comparar opciones dentro del inventario disponible y completar una compra con verificación en cada paso. A estos programas el mundo tecnológico los llama “agentes”. En las últimas semanas se celebró la llegada del nuevo agente de compras de Alibaba, el gigante asiático del e-commerce. El relato oficial lo presenta como un salto decisivo; sin embargo, cuando uno mira el caso con un mínimo de método, aparece una narración adelantada al producto.

La historia suele empezar con un número diseñado para marear, como “doscientos millones de órdenes procesadas en dos semanas” durante las festividades del Año Nuevo Lunar. El problema es que, tal como suele presentarse, es una cifra corporativa no auditada y con definición opaca. ¿Qué significa “orden procesada” en términos operativos? ¿Incluye intentos fallidos, duplicados, pruebas automatizadas, devoluciones, reintentos, órdenes parcialmente completadas, acciones internas de logística, o solo compras efectivas? Sin una definición pública, un desglose mínimo y algún tipo de verificación independiente, el dato describe marketing, no desempeño. Aun así, es frecuente que informes financieros lo repitan como si fuera una medición objetiva, cuando en la práctica el sell-side suele trabajar sobre disclosures y guidance de la propia compañía, y rara vez puede auditar métricas operativas en tiempo real. En un contexto de guerra narrativa entre China y Estados Unidos, ese tipo de cifras no debería funcionar como prueba, sino como señal de que falta evidencia.

Ese entusiasmo alimenta un patrón mediático que ya se repite demasiado, donde Estados Unidos inventa y China “lo lleva al siguiente nivel”. Puede ser un encuadre útil para titulares, y tiene valor político, solo que aquí se desarma porque el propio caso exhibe fallas básicas en lo que distingue a un agente real de un chatbot con esteroides. Un agente de compras no se mide por lo bien que redacta, sino por su capacidad de “aterrizar” respuestas en inventario, disponibilidad, precios y reglas transaccionales. En otras palabras, por grounding y verificación.

En una prueba, le pidieron al sistema que buscara un sofá en Taobao. El agente no devolvió una lista de productos comprables con stock, precio, opciones de entrega y filtros relevantes; solo presentó una guía genérica de decoración. Eso no es confundir asistencia conversacional con ejecución acoplada a sistemas. La pregunta era transaccional; sin embargo, la salida fue editorial. En otra prueba, cuando se le pidió reservar una mesa, el sistema confirmó una cena en un restaurante que ni siquiera existía. Ahí el problema es todavía más claro, con la ausencia de validación de entidades. Un agente que confirma una acción sin verificar la existencia del lugar, su disponibilidad y la confirmación del proveedor no es un asistente, sino un generador de frases con apariencia de ticket.

Un agente de compras no se mide por lo bien que redacta, sino por su capacidad de “aterrizar” respuestas

A partir de ahí, algunos defensores intentan un rescate del argumento diciendo que Alibaba tiene una ventaja invencible porque controla todo el ecosistema a partir de su inteligencia artificial, las tiendas virtuales, los pagos, los mapas y hasta servicios de viaje. Esa idea confunde disponibilidad de piezas con capacidad de ensamblaje funcional. La integración vertical reduce fricción de permisos, accesos y datos. Esta no garantiza consistencia transaccional, ni evita alucinaciones, ni resuelve el matching correcto entre intención del usuario e inventario real, ni produce verificación robusta en tiempo real. El mapa corporativo puede estar completo, y aun así el territorio operativo puede fallar en lo esencial cuando no cierra el ciclo entre lo que el sistema dice y lo que el sistema ejecuta.

También aparece una comparación tramposa, y es presentar a Alibaba como ganador frente a OpenAI porque a esta “le costó” desarrollar funciones de compras. La comparación mezcla categorías. OpenAI construye modelos generalistas y herramientas horizontales; por su parte, Alibaba optimiza un sistema transaccional con inventario, pagos, logística, catálogos y datos de compra. Son competencias distintas. Una empresa con décadas de infraestructura comercial conecta más rápido un flujo de compra que una centrada en modelos; esto no prueba liderazgo en inteligencia artificial general, solo demuestra que tiene un supermercado y conoce sus pasillos.

Luego llegan las cifras de usuarios. En este guarismo, saltos de 17 millones diarios a más de 73 millones, incluso si fueran correctos, por sí solos dicen poco. En e-commerce, el crecimiento durante fiestas con incentivos agresivos es el indicador más fácil de fabricar y el más frágil para proyectar. Lo relevante son cifras tales como retención por cohortes, tasa de repetición de uso sin subsidio, tasa de tareas completadas de punta a punta, error rate por categoría, cancelaciones, devoluciones y conversión incremental atribuible al agente. Si el relato no muestra esas métricas, muestra un pico, no una base.

El punto no es negar que Alibaba tenga recursos, datos y capacidad de ejecución. El punto es separar producto de propaganda. Un agente de compras se vuelve interesante cuando demuestra confiabilidad mínima en tareas simples, cuando valida entidades, cuando entrega resultados aterrizados en inventario real y cuando sus métricas de éxito y retención sobreviven al fin de las promociones. Hoy, con un sistema que ofrece contenido genérico ante pedidos transaccionales, que confirma reservas sin verificación y con cifras que no se pueden cotejar, el esmoquin de James Bond queda como marketing. Lo que hay, por ahora, es un asistente que todavía puede extraviarse en su propio supermercado.

Las cosas como son.