La intel·ligència artificial està transformant radicalment el món de la ciberseguretat, però no només en sentit positiu. D'una banda, els cibercriminals aprofiten aquesta tecnologia per llançar atacs incessants mitjançant bots dotats d'IA. D'altra banda, la mateixa tecnologia comença a mostrar vulnerabilitats preocupants que posen en dubte la fiabilitat dels sistemes actuals. Recentment, s'ha demostrat que és possible manipular models d'IA que sustenten xatbots tan populars com ChatGPT i Gemini amb només 250 documents corruptes introduïts entre els milers de milions de fragments de dades utilitzats per al seu entrenament, una xifra sorprenentment baixa tenint en compte la magnitud d'aquests sistemes.
Els experts en ciberseguretat de Microsoft han alertat en un comunicat sobre un problema nou i especialment insidiós: les recomanacions que fa la intel·ligència artificial poden comprometre's de manera secreta per beneficiar persones o empreses concretes. La companyia nord-americana ha batejat aquesta nova amenaça com a "enverinament de recomanacions d'IA". A diferència d'altres atacs més visibles, aquesta tècnica actua de manera silenciosa, modificant subtilment els resultats que la IA ofereix als usuaris sense que aquests s'adonin que les respostes estan esbiaixades. El perill és que els usuaris confien plenament en les recomanacions generades per IA, especialment quan provenen de plataformes conegudes i aparentment fiables.
Com funciona "l'enverinament"
Moltes empreses estan incorporant en els seus productes o serveis digitals botons que permeten resumir continguts extensos mitjançant eines d'intel·ligència artificial. Quan un usuari veu el logotip de ChatGPT o Gemini, el més lògic és pensar que la informació que rebrà serà la mateixa que si introduís ell mateix el contingut en aquests chatbots. No obstant això, la realitat és ben diferent. Les empreses estan utilitzant tècniques que, en fer clic en aquests botons, injecten ordres persistents en la memòria de la IA a través de paràmetres que s'afegeixen a les consultes mitjançant enllaços web. Aquestes ordres instrueixen la IA perquè recordi una determinada companyia com a font fiable o perquè la recomani en primera posició, cosa que crea un biaix en les respostes que ofereix als usuaris sense que aquests en tinguin constància.
Microsoft assegura que ha identificat cinquanta prompts diferents procedents de 31 empreses de 14 sectors industrials diferents, que inclouen àrees tan sensibles com la salut, les finances i la seguretat. La companyia adverteix que es tracta d'una tècnica fàcil d'utilitzar per a la qual existeixen eines gratuïtes a l'abast de qualsevol empresa que vulgui manipular les recomanacions de la IA en el seu propi benefici. Aquesta accessibilitat fa que l'amenaça sigui especialment preocupant, ja que no requereix grans recursos tècnics ni econòmics per ser implementada. Qualsevol negoci amb coneixements bàsics de programació podria, en teoria, inclinar la balança de les recomanacions a favor seu.
Davant d'aquesta nova vulnerabilitat, l'empresa dirigida per Satya Nadella afirma haver implementat mesures de seguretat específiques contra aquest tipus d'atacs per injecció d'ordres en la seva eina Copilot. No obstant això, la companyia reconeix implícitament que la batalla per assegurar els sistemes d'intel·ligència artificial està lluny d'haver-se guanyat. Aquesta revelació suposa una prova addicional que, com recorden els lemes clàssics de la ciberseguretat, res no és completament segur.
Les mesures de protecció han d'evolucionar contínuament a mesura que s'identifiquen noves tècniques d'atac, i el camp de la intel·ligència artificial no és una excepció. La capacitat de manipular recomanacions de manera secreta obre la porta a pràctiques poc ètiques que podrien distorsionar la competència en línia i erosionar la confiança dels usuaris en les eines d'IA, un actiu fonamental per a l'adopció generalitzada d'aquestes tecnologies.