Imagina que et prometen un assistent personal impecable, un agent d'intel·ligència artificial que no només conversa, sinó que executa tasques com ara cercar productes reals, comparar opcions dins de l'inventari disponible i completar una compra amb verificació a cada pas. A aquests programes el món tecnològic els anomena “agents”. En les últimes setmanes es va celebrar l'arribada del nou agent de compres d'Alibaba, el gegant asiàtic de l'e-commerce. El relat oficial el presenta com un salt decisiu; tanmateix, quan un mira el cas amb un mínim de mètode, apareix una narració avançada al producte.

La història sol començar amb un número dissenyat per marejar, com ara “dos-cents milions de comandes processades en dues setmanes” durant les festivitats de l'Any Nou Lunar. El problema és que, tal com sol presentar-se, és una xifra corporativa no auditada i amb definició opaca. Què significa “comanda processada” en termes operatius? Inclou intents fallits, duplicats, proves automatitzades, devolucions, reintents, comandes parcialment completades, accions internes de logística, o només compres efectives? Sense una definició pública, un desglossament mínim i algun tipus de verificació independent, la dada descriu màrqueting, no rendiment. Així i tot, és freqüent que informes financers ho repeteixin com si fos una mesura objectiva, quan a la pràctica el sell-side sol treballar sobre disclosures i guidance de la mateixa companyia, i poques vegades pot auditar mètriques operatives en temps real. En un context de guerra narrativa entre la Xina i els Estats Units, aquest tipus de xifres no hauria de funcionar com a prova, sinó com a senyal que falta evidència.

Aquest entusiasme alimenta un patró mediàtic que ja es repeteix massa, on els Estats Units inventen i la Xina “ho porta al següent nivell”. Pot ser un enquadrament útil per a titulars, i té valor polític, només que aquí es desarma perquè el mateix cas exhibeix fallades bàsiques en el que distingeix un agent real d'un chatbot amb esteroides. Un agent de compres no es mesura per com de bé redacta, sinó per la seva capacitat d’“aterrar” respostes en inventari, disponibilitat, preus i regles transaccionals. En altres paraules, per grounding i verificació.

En una prova, van demanar al sistema que busqués un sofà a Taobao. L'agent no va retornar una llista de productes comprables amb estoc, preu, opcions de lliurament i filtres rellevants; només va presentar una guia genèrica de decoració. Això no és confondre assistència conversacional amb execució acoblada a sistemes. La pregunta era transaccional; tanmateix, la sortida va ser editorial. En una altra prova, quan se li va demanar reservar una taula, el sistema va confirmar un sopar en un restaurant que ni tan sols existia. Aquí el problema és encara més clar, amb l'absència de validació d'entitats. Un agent que confirma una acció sense verificar l'existència del lloc, la seva disponibilitat i la confirmació del proveïdor no és un assistent, sinó un generador de frases amb aparença de tiquet.

Un agent de compres no es mesura per com de bé redacta, sinó per la seva capacitat d’“aterrar” respostes

A partir d'aquí, alguns defensors intenten un rescat de l'argument dient que Alibaba té un avantatge invencible perquè controla tot l'ecosistema a partir de la seva intel·ligència artificial, les botigues virtuals, els pagaments, els mapes i fins i tot serveis de viatge. Aquesta idea confon disponibilitat de peces amb capacitat d'assemblatge funcional. La integració vertical redueix fricció de permisos, accessos i dades. Aquesta no garanteix consistència transaccional, ni evita al·lucinacions, ni resol el matching correcte entre intenció de l'usuari i inventari real, ni produeix verificació robusta en temps real. El mapa corporatiu pot estar complet, i, tot i això, el territori operatiu pot fallar en l'essencial quan no tanca el cicle entre el que el sistema diu i el que el sistema executa.

També apareix una comparació tramposa, i és presentar Alibaba com a guanyador davant d'OpenAI perquè a aquesta “li va costar” desenvolupar funcions de compres. La comparació barreja categories. OpenAI construeix models generalistes i eines horitzontals; per la seva banda, Alibaba optimitza un sistema transaccional amb inventari, pagaments, logística, catàlegs i dades de compra. Són competències diferents. Una empresa amb dècades d'infraestructura comercial connecta més ràpidament un flux de compra que una de centrada en models; això no prova lideratge en intel·ligència artificial general, només demostra que té un supermercat i en coneix els passadissos.

Després arriben les xifres d'usuaris. En aquest guarisme, salts de 17 milions diaris a més de 73 milions, fins i tot si fossin correctes, per si sols diuen poc. En comerç electrònic, el creixement durant festes amb incentius agressius és l'indicador més fàcil de fabricar i el més fràgil per projectar. El rellevant són xifres com ara retenció per cohorts, taxa de repetició d'ús sense subsidi, taxa de tasques completades de cap a cap, error rate per categoria, cancel·lacions, devolucions i conversió incremental atribuïble a l'agent. Si el relat no mostra aquestes mètriques, mostra un pic, no una base.

El punt no és negar que Alibaba tingui recursos, dades i capacitat d'execució. El punt és separar producte de propaganda. Un agent de compres esdevé interessant quan demostra fiabilitat mínima en tasques simples, quan valida entitats, quan lliura resultats aterrats en inventari real i quan les seves mètriques d'èxit i retenció sobreviuen al final de les promocions. Avui, amb un sistema que ofereix contingut genèric davant de comandes transaccionals, que confirma reserves sense verificació i amb xifres que no es poden comparar, l'esmòquing de James Bond queda com a màrqueting. El que hi ha, per ara, és un assistent que encara pot extraviar-se en el seu propi supermercat.

Les coses com són.