Una niña que se llamaba Norma se convirtió el año 1982 en la imagen de la campaña del Govern para la normalización del catalán. Casi 40 años más tarde, el catalán sigue batallando para defenderse y, además, en terrenos cada vez más complejos y con armas más sofisticadas, entre las cuales la inteligencia artificial. Para que la Norma pueda seguir dialogando también con ordenadores y asistentes virtuales como Siri o Alexa, el Govern ha impulsado el proyecto AINA, para la normalización digital del catalán.

Creado desde el departamento de Polítiques Digitals, el proyecto Aina se propone generar un corpus y modelos informáticos de la lengua catalana para proporcionar los recursos necesarios a las empresas que crean aplicaciones basadas en inteligencia artificial como por ejemplo los asistentes de voz, agentes conversacionales o traductores automáticos.

El catalán en el mundo digital

"El objetivo del Govern es que la ciudadanía pueda interactuar con el mundo digital en catalán", ha explicado el conseller de Polítiques Digitals, Jordi Puigneró, en la rueda de prensa en qué ha presentado el proyecto.

Puigneró se ha referido a un estudio realizado en el 2011 por la red europea de excelencia NET en que se advertía que más de 20 lenguas europeas, entre las cuales el catalán, se enfrentan a la extinción digital si no reciben más apoyo tecnológico en áreas como la traducción simultánea, la interacción con voz, el análisis textual y la disponibilidad de recursos lingüísticos.  El conseller ha advertido que el catalán conseguirá pervivir si se puede utilitzar también con normalidad en el nuevo contexto digital, como "una lengua útil i competitiva".

Captura de pantalla 2020 12 10 a las 10.14.13

El conseller de Políticas Digitales, Jordi Puigneró, en la rueda de prensa de presentación del proyecto AINA

Supercomputing Center

Con un presupuesto de 13,5 millones de euros entre 2020 y 2024, que se preve que sean finanzado con fondos europeos NextGenerationEU, el proyecto arranca con una aportación inicial de 250.000 euros del departamento de Políticas Digitales que se han asignado a la Barcelona Supercomputing Center (BSC).

El BSC ya dispone de un primer corpus textual del catalán, consistente en 1.770 millones de palabras, reunidas en 95 millones de frases, a partir de descargar textos de diferentes fuentes digitales, como por ejemplo la página web del Govern o del DOGC, de donde se ha extraído el 33% de los contenidos, descargados.

El superordenador MareNostrum ha tenido que dedicar 2.000 horas de procesadores para revisar los datos, eliminar duplicidades y todo aquello que no fueran contenidos propiamente en catalán. Aina incorporará las variedades dialectales del catalán, los diferentes registros lingüísticos, y archivos de voz e imagen, donde se incluirán, todo el repositorios documental de la Corporación Catalana de Medios Audiovisuales.

Inteligencia artificial

Todo ello tiene que servir para desarrollar las aplicaciones basadas en la inteligencia artificial, como asistentes de voz, xatbots, aplicaciones de resumen automático, búsquedas inteligentes, aplicaciones para el análisis de sentimientos o motores de traducción y subtitulación automática, entre otros. Se hará posible a partir de la creación de redes neuronales para aprender el catalán y generar modelos de lengua, de habla y de traducción.

Todos los modelos que se creen en el Supercomunting Center estarán a disposición de todas aquellas empresas o entidades que las quieran utilizar porque, según ha explicado el departamento, se publicarán en abierto y con licencias permisivas.

Puigneró ha subrayado que el catalán no dispone de un estado detrás que lo proteja y que gracias a Aina es muy probable que se pueda oír el catalán antes con Alexa, el asistente digital de Amazon, que en el Congreso del Diputats o al Tribunal Supremo.

El proyecto AINA mantiene el hilo con la Norma del año 1982 por la entonces directora general de Política Lingüística, Aina Moll. Además, Aina esconde las inicial AI, de Inteligencia Artificial.