Un dia és Apple, al següent Amazon i el que ve Microsoft. I avui, el que ens sorprèn, és aquest últim. Ho fa, a més, amb un sistema d'Intel·ligència Artificial (l'enèsim) que, pel que sembla, és capaç d'imitar veus a la perfecció. Es diu VALL-E i, asseguren els seus creadors, pot fins i tot modular el to i enriquir els discursos inflexions similars a les que faríem nosaltres.

ai voice generator scaled
 

 

Res a veure amb els sistemes de síntesi de veu

Fins ara, empreses com Google o Meta han utilitzat eines de síntesi de veu que, a partir de diferents enregistraments que se'ls faciliten a l'eina o que aquesta capta de manera autònoma, creen veus sintètiques aparentment humanes, però VALL-E no funciona així: l'eina que ha creat Microsoft li'n té prou amb fragments de tres segons per a, expliquen els seus creadors, "capturar l'essència" de qualsevol veu. Microsoft ho aconsegueix perquè ha equipat a la seva eina amb 60.000 hores d'enregistraments de fins a 7.000 veus humanes diferents, el que permet que VALL-E compari qualsevol enregistrament nou que se li facilita amb el material que emmagatzema i desenvolupar una imitació convincent del que acaba de sentir. Fins ara, només funciona en anglès, però la idea de Bill Gates i la seva gent és desenvolupar eines similars per a altres idiomes.

Ho imita tot

VALL-E és capaç fins i tot d'imitar situacions i, així, pot fins i tot reproduir el timbre característic d'una veu humana quan parla a través del telèfon. Preserva el timbre, l'entonació i fins a part de la modulació pròpia del canal. Les utilitats de l'eina són múltiples: des de corregir automàticament enregistraments d'àudio a imitar les veus de persones mortes. També, per descomptat, pot servir per enganyar-te si cau en mans dels teus fills, que poden arribar a convèncer-te que són a casa quan, en realitat estan en una festa que se celebra a mil quilòmetres d'on haurien de ser. Meravellós, en definitiva.