Una nena que es deia Norma es va convertir l'any 1982 en la imatge de la campanya del Govern per la normalització del català. Gairebé 40 anys més tard, el català continua batallant per defensar-se però, a més, en terrenys cada cop més complexos i amb armes més sofisticades, entre les quals la intel·ligència artificial. Perquè la Norma pugui seguir dialogant també amb ordinadors i assistents virtuals com Siri o Alexa, el Govern ha impulsat el projecte AINA, per a la normalització digital del català.

Creat des del departament de Polítiques Digitals, el projecte AINA es proposa generar un corpus i models informàtics de la llengua catalana per proporcionar els recursos necessaris a les empreses que creen aplicacions basades en intel·ligència artificial com per exemple els assistents de veu, agents conversacionals o traductors automàtics.

Extinció digital

"L'objectiu del Govern és que la ciutadania pugui interactuar amb el món digital en català", ha explicat el conseller de Polítiques Digitals, Jordi Puigneró, en la roda de premsa en què ha presentat el projecte.

Puigneró ha recordat que un estudi realitzat el 2011 per la xarxa europea d'excel·lència META-NET advertia que més de 20 llengües europees, entre les quals el català, s'enfronten a l'extinció digital si no reben més suport tecnològic en àrees com la traducció simultània, la interacció amb veu, l'anàlisi textual i la disponibilitat de recursos lingüístics. El conseller ha advertit que el català aconseguirà perviure si es pot utilitzar també amb normalitat en el nou context digital, com "una llengua útil i competitiva".

Captura de pantalla 2020 12 10 a les 10.14.13

El conseller de Polítiques Digitals, Jordi Puigneró, en la roda de premsa de presentació del projecte AINA

Supercomputing Center

Amb un pressupost de 13,5 milions d'euros entre 2020 i 2024, que es preveu que siguin finançats amb fons europeus NextGenerationEU, el projecte arrenca amb una aportació inicial de 250.000 euros del departament de Polítiques Digitals que s'han assignat al Barcelona Supercomputing Center (BSC).

El BSC ja disposa d'un primer corpus textual del català, consistent en 1.770 milions de paraules, reunides en 95 milions de frases, a partir de descarregar textos de diferents fonts digitals, com per exemple la pàgina web del Govern o del DOGC, d'on s'ha extret el 33% dels continguts descarregats.

El superordinador MareNostrum ha hagut de dedicar 2.000 hores de processadors per revisar les dades, eliminar duplicitats i tot allò que no fossin continguts pròpiament en català. Aina incorporarà les varietats dialectals del català, els diferents registres lingüístics, i arxius de veu i imatge, on s'hi inclouran tot el repositoris documental de la Corporació Catalana de Mitjans Audiovisuals.

Intel·ligència artificial

Tot plegat ha de servir per desenvolupar les aplicacions basades en la intel·ligència artificial, com ara assistents de veu, xatbots, aplicacions de resum automàtic, cerques intel·ligents, aplicacions per a l'anàlisi de sentiments o motors de traducció i subtitulació automàtica, entre d'altres. Per fer-ho possible es crearan xarxes neuronals per aprendre el català i generar models de llengua, de parla i de traducció.

Tots els models que es creïn al Supercomunting Center estaran a disposició de totes aquelles empreses o entitats que les vulguin fer servir perquè, segons ha explicat el departament, es publicaran en obert i amb llicències permissives.

El nom d'AINA

Puigneró ha subratllat que el català no disposa d'un estat al darrere que el protegeixi i que gràcies a l'Aina és molt probable que es pugui sentir el català abans amb Alexa, l'assistent digital d'Amazon, que al Congrés del Diputats o al Tribunal Suprem.

El projecte AINA manté el fil amb la Norma de l'any 1982 creada per l'aleshores directora general de Política Lingüística, Aina Moll. D'aquí el seu nom, que a més, amaga les sigles AI, d'Intel·ligència Artificial.