Quan pensem en intel·ligència artificial, és difícil no imaginar una interfície responent en anglès, amb referències modelades per una visió cultural anglosaxona. No és casualitat: l'idioma dominant en el desenvolupament dels models d'IA és l'anglès. I això té conseqüències no només tècniques, sinó també culturals i polítiques.

Els grans models de llenguatge s'alimenten de corpus textuals massius extrets d'internet. I la xarxa, reflex de dinàmiques històriques de producció de coneixement, està dominada per continguts en anglès. Segons dades de Common Crawl, gairebé la meitat de la informació disponible per entrenar aquests sistemes està en anglès; l'espanyol, malgrat ser la segona llengua materna més parlada del món, amb prou feines supera un sol dígit en representació.

El biaix invisible de l'idioma

L'hegemonia lingüística en IA no és un detall menor. L'idioma no és només un mitjà per comunicar-se: és un portador de valors, expressions culturals i formes d'entendre el món. Si els models aprenen sobretot de dades en anglès, la visió que projecten estarà esbiaixada cap a contextos anglosaxons.

Això impacta en la forma en què es prioritzen significats, s'interpreten conceptes i es transmeten narratives històriques. Fins i tot pot afectar la qualitat de les respostes: per a molts models, respondre en espanyol no és més que traduir internament el processat en anglès, amb el risc de perdre matisos i precisió.

Sobirania digital i diversitat cultural

A Iberoamèrica, l'escassa presència de l'espanyol i de les llengües originàries en IA planteja riscos de dependència tecnològica i pèrdua de sobirania cultural. Les eines que utilitzem per aprendre o treballar no són neutrals: defineixen quin coneixement es considera vàlid i com es transmet.

Les llengües indígenes —com el quítxua, el guaraní, l'aimara o el nàhuatl- són pràcticament absents de les dades d'entrenament. Això no només amenaça la seva preservació, sinó que impedeix que les comunitats que les parlen accedeixin a IA adaptada als seus contextos.

Defensar la diversitat lingüística és part essencial d'una IA ètica. No n'hi ha prou amb transparència algorítmica o protecció de dades: també hem de garantir que les comunitats puguin veure's i escoltar-se reflectides en la tecnologia que utilitzen.

Estratègies per a una IA en espanyol (i més enllà)

Traduir interfícies no és suficient. Necessitem models entrenats de forma nativa en espanyol i en altres llengües de la nostra regió. Per aconseguir-ho, fan falta polítiques públiques, inversió i col·laboració regional.

Algunes accions clau:

-Corpus oberts i multilingües que incloguin espanyol i llengües indígenes, creats de forma ètica.

-Desenvolupament de models propis, entrenats localment amb dades representatives de la diversitat iberoamericana.

-Col·laboració acadèmica i comunitària per validar culturalment els sistemes.

-Polítiques de sobirania digital que exigeixin diversitat lingüística en les solucions tecnològiques públiques.

Un repte i una oportunitat

L'espanyol és llengua materna de més de 500 milions de persones i la tercera més utilitzada a internet. Assegurar la seva presència en IA és una aposta estratègica perquè la tecnologia reflecteixi les nostres realitats i no només importi models aliens. La diversitat cultural i lingüística és un actiu: la pluralitat enriqueix, la uniformitat empobreix. Si no actuem, correm el risc que les pròximes generacions interactuïn amb sistemes que no parlen realment el seu idioma, encara que els responguin en ell. Un idioma sense tecnologia que l'acompanyi està condemnat a la irrellevància digital.

Fa uns anys vam escriure El imperi dels algoritmes, que advertia sobre com la concentració de poder tecnològic i de dades podia modelar identitats i sobirania cultural. Avui, davant l'hegemonia de l'anglès en IA, aquest advertiment és més vigent que mai.