Las lenguas forman una parte fundamental de la cultura y la forma de ser de las personas. Unen pero en ocasiones también suponen distancia. Y lo hacen cuando suponen una barrera para que dos seres humanos se puedan comunicar en condiciones. De ahí que el conocimiento de varios idiomas sea tan valorado.

De unos años a esta parte, el desarrollo de los traductores online ha supuesto un gran avance para poder leer textos en idiomas que desconocemos o para poder entender mucho mejor precisamente los de aquellos que conocemos sin llegarlos a dominar del todo. En ese sentido, la herramienta Google Translate y otras similares son de una gran utilidad al haberse universalizado de manera gratuita.

Traducción de voz

En cuanto a los sistemas de traducción de voz que se han desarrollado durante las últimas décadas, estos se han dividido en tres componentes distintos. Un reconocimiento de voz automático para transcribir la voz de origen como texto, una traducción automática para traducir el texto transcrito al idioma de destino y una síntesis de texto a voz para generar una voz en el idioma que es objeto final del proceso. Así es como funcionan los llamados sistemas en cascada de muchos productos de traducción de voz, entre los que se incluyen el popular Google Translate también.

Se llama Translatotron

Pero ahora, Google –después de años de trabajo en un proyecto innovador– propone un nuevo sistema que aún está en fase experimental y que se basa en un modelo que atiende a la traducción de voz directa sin pasar por el intermediario que es la representación de texto de la lengua de origen.

Lo han llamado Translatotron y no utiliza el sistema en cascada anteriormente citado, gracias a lo cual evita que se comentan errores por el camino, facilita que se retenga la voz de la persona que habla hasta después de la traducción y un mejor manejo de las palabras que no precisan ser traducidas, tales como nombres propios, por ejemplo.

idiomes - unsplash

Translatron se basa en una red de secuencia a secuencia que coge los espectrogramas de origen como entrada y genera directamente espectrogramas del contenido traducido en el idioma de destino. Además utiliza dos componentes más que han sido enseñados a aprender en lo referente a los objetivos del proyecto. Se trata de un vocoder (o codificador de voz) neuronal que convierte los espectrogramas de salida en ondas, y de un codificador que se puede usar para mantener las características de la voz del que habla. Esta combinación permite que el habla traducida suene más natural y menos discordante.

En Google son conscientes de que el proyecto debe mejorar y que, en algunos aspectos, la traducción con la intermediación del texto aún supera a Translatotron. Pero también saben que se trata del primer modelo que ha logrado traducir voz de un extremo a otro sin intermediación y confían en que el proyecto sea una realidad fiable más pronto que tarde.