Un día es Apple, al siguiente Amazon y el que viene Microsoft. Y hoy, el que nos sorprende, es éste último. Lo hace, además, con un sistema de Inteligencia Artificial (el enésimo) que, por lo visto, es capaz de imitar voces a la perfección. Se llama VALL-E y, aseguran sus creadores, puede hasta modular el tono e introducir en el discursos inflexiones similares a las que haríamos nosotros.

ai voice generator scaled
 

 

Nada que ver con los sistemas de síntesis de voz

Hasta ahora, empresas como Google o Meta han utilizado herramientas de síntesis de voz que, a partir de diferentes grabaciones que se les facilitan a la herramienta o que ésta capta de manera autónoma, crean voces sintéticas aparentemente humanas, pero Vall-E no funciona así: a la herramienta que ha creado Microsoft le bastan fragmentos de tres segundos para, explican sus creadores, “capturar la esencia” de cualquier voz. Microsoft lo consigue porque ha equipado a su herramienta con 60.000 horas de grabaciones de hasta 7.000 voces humanas distintas, lo que permite que VALL-E compare cualquier grabación nueva que se le facilita con el material que almacena y desarrollar una imitación convincente de lo que acaba de oír. Hasta ahora, sólo funciona en inglés, pero la idea de Bill Gates y su gente es desarrollar herramientas similares para otros idiomas.

Lo imita todo

VALL-E es capaz incluso de imitar situaciones y, así, puede hasta reproducir el timbre característico de una voz humana cuando habla a través del teléfono. Preserva el timbre, la entonación y hasta parte de la modulación propia del canal. Las utilidades de la herramienta son múltiples: desde corregir automáticamente grabaciones de audio a imitar las voces de personas fallecidas. También, por supuesto, puede servir para engañarte si cae en manos de tus hijos, que pueden llegar a convencerte de que están en casa cuando, en realidad están en una fiesta que se celebra a mil kilómetros de donde deberían estar. Maravilloso, en definitiva.