Confiar en la tecnologia per monitorar el nostre benestar s'ha tornat un hàbit quotidià. Portem sensors al canell que registren cada batec i cada pas, acumulant un historial clínic digital que, fins fa poc, només un professional podia interpretar. No obstant això, amb el recent llançament d'eines especialitzades com ChatGPT Salut d'OpenAI o Claude d'Anthropic, la temptació d'obtenir un diagnòstic instantani generat per IA ha crescut. Tot i que sembla el futur de la medicina, per ara estan lluny de ser infal·libles.

Recentment, una anàlisi publicada per The Washington Post va posar a prova la capacitat d'aquests sistemes utilitzant una dècada de dades personals provinents d'un Apple Watch.

El resultat no va ser una consulta mèdica precisa, sinó una sèrie de qualificacions inconsistents. En processar la mateixa informació, ChatGPT va atorgar inicialment una "F" (suspès) a la salut cardíaca de l'usuari, per a després pujar-la a una "D" després de rebre més context. Per la seva banda, el model Claude va assignar una "C".

La IA encara no és una font mèdica fiable

L'estudi va comptar amb la intervenció de metges humans per avaluar les mateixes dades i les conclusions de la IA. Els professionals van qualificar els veredictes dels bots com a "infundats" i van confirmar que el pacient gaudia, en realitat, d'una salut excel·lent. Aquesta discrepància subratlla un problema central: la IA pot detectar patrons, però manca del judici clínic per entendre quines dades són realment rellevants i quines són soroll estadístic.

Un dels grans errors d'aquestes eines radica en la seva matèria primera. La IA sol basar-se en mètriques estimades pels rellotges intel·ligents, com el VO2 màxim, un valor que, segons experts, requereix proves físiques amb mascareta i cinta de córrer per ser exacte. Un algorisme que processa dades aproximades només pot retornar diagnòstics aproximats.

A això s'hi suma una fragilitat tècnica sorprenent: durant l'experiment, es va detectar que els bots arribaven a oblidar dades bàsiques de l'usuari, com la seva edat o sexe, enmig de la conversa. En un context mèdic, ometre aquests factors no és un error menor; és una fallada que invalida qualsevol recomanació de salut.

Buits legals i promeses de privacitat

Més enllà de la precisió, hi ha un risc estructural relacionat amb la protecció de la informació. Mentre que un metge humà o una institució sanitària estan obligats a complir normatives estrictes com la HIPAA (Llei de Portabilitat i Responsabilitat d'Assegurances de Salut), les empreses d'IA operen en un territori gris.

Encara que les empreses assegurin que la informació està xifrada, no estan subjectes als mateixos estàndards legals que regeixen la privacitat mèdica professional, deixant l'usuari depenent únicament d'una promesa corporativa."

Tot canvia per a Apple

Aquest escenari planteja un repte enorme per a futurs serveis, com el rumorejat "Apple Health+" d'Apple. Si líders del sector com OpenAI i Anthropic presenten resultats tan irregulars, la pressió sobre Apple serà màxima. La companyia haurà de demostrar que la seva IA no només protegeix les dades, sinó que sap interpretar-les amb una precisió que, fins avui, la tecnologia no ha aconseguit assolir.

Amb el que tenim en l'actualitat, no hi ha gaire a dir. Mentre la IA no pugui distingir entre una dada mal mesurada per un sensor i una patologia real, la millor recomanació continua sent la més antiga: davant el dubte, consulta un metge de carn i ossos. La tecnologia ha de ser un suport, mai un substitut del criteri humà.