Google aconsegueix l'èxit de la traducció directa de veu d'un idioma a l'altre

Les llengües formen una part fonamental de la cultura i la forma de ser de les persones. Uneixen però en ocasions també suposen distància. I ho fan quan suposen una barrera perquè dos éssers humans es puguin comunicar en condicions. Per això el coneixement de diversos idiomes és tan valorat.

D'uns anys ençà, el desenvolupament dels traductors online ha suposat un gran avenç per poder llegir textos en idiomes que desconeixem o per poder entendre molt millor precisament els d'aquells que coneixem sense arribar a dominar-los del tot. En aquest sentit, l'eina Google Translate i altres de similars són d'una gran utilitat en haver-se universalitzat de manera gratuïta.

Traducció de veu

Quant als sistemes de traducció de veu que s'han desenvolupat durant les últimes dècades, aquests s'han dividit en tres components diferents. Un reconeixement de veu automàtic per transcriure la veu d'origen com a text, una traducció automàtica per traduir el text transcrit a l'idioma de destí i una síntesi de text a veu per generar una veu en l'idioma que és objecte final del procés. Així és com funcionen els anomenats sistemes en cascada de molts productes de traducció de veu, entre els que s'inclouen el popular Google Translate també.

Es diu Translatotron

Però ara, Google –després d'anys de treball en un projecte innovador– proposa un nou sistema que encara està en fase experimental i que es basa en un model que atén la traducció de veu directa sense passar pel mitjancer que és la representació de text de la llengua d'origen.

L'han anomenat Translatotron i no utilitza el sistema en cascada anteriorment citat, gràcies a la qual cosa evita que es comenten errors pel camí, facilita que es retingui la veu de la persona que parla fins després de la traducció i un millor maneig de les paraules que no necessiten ser traduïdes, tals com noms propis, per exemple.

idiomes - unsplash

Translatron es basa en una xarxa de seqüència a seqüència que agafa els espectrogrames d'origen com a entrada i genera directament espectrogrames del contingut traduït en l'idioma de destí. A més utilitza dos components més que han estat ensenyats a aprendre en base als objectius del projecte. Es tracta d'un vocòder (o codificador de veu) neuronal que converteix els espectrogrames de sortida en ones, i d'un codificador que es pot utilitzar per mantenir les característiques de la veu del qual parla. Aquesta combinació permet que la parla traduïda soni més natural i menys discordant.

A Google són conscients que el projecte ha de millorar i que, en alguns aspectes, la traducció amb la intermediació del text encara supera Translatotron. Però també saben que es tracta del primer model que ha aconseguit traduir veu d'un extrem a un altre sense intermediació i confien que el projecte sigui una realitat fiable més aviat que tard.

Més