Cargando...

Google ha tenido mucho movimiento en los últimos meses, considerando que ha estrenado nuevos modelos de IA, además de abrir una brecha importante con utilidades que cambian prácticamente la manera en la que se utiliza Gemini; aún queda otra novedad relevante enfocada en la traducción. Se ha anunciado Gemini 3.5 Live Translate, donde se expone al primer modelo especializado y entrenado para esta labor de voz a voz

Por su baja latencia, es posible escuchar a dos personas a tal grado de imitar su tono de voz, además de detectar y traducir los idiomas sin necesidad de esperar el turno de la palabra o interrumpir el flujo del diálogo. Va más allá de una simple app para poder traducir voces y no podemos olvidarnos de que Google Translate sentó parte de las bases, pero hoy es totalmente radical este cambio. 

Gemini quiere competir contra OpenAI por eliminar las barreras del idioma con IA

Se destacan cuatro aspectos que harán que la herramienta de Google supere a la de OpenAI, que tiene tres: GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper. Aunque algunas sean destinadas a los desarrolladores por parte de la empresa de Sam Altman, en Mountain View tienen otro enfoque y quieren llegar directamente a los usuarios. El modelo escuchará de forma continua y traduce en el momento como si se tratara de un humano que está interpretando. Evita las pausas que entorpecían la conversación; en su lugar se habla y se puede procesar el audio de tal forma que se escucha el audio en tiempo y forma. 

Google hace oficial Gemini 3.5 Live Translate

Muchas veces se batalla con la configuración inicial, colocar los idiomas de origen y destino; eso también ha quedado atrás. El reconocimiento del idioma ayuda de tal forma que la IA de Google detecta de manera automática el idioma de las personas que están conversando. Al eliminar la barrera del idioma, no solo es a través de su funcionamiento; Gemini 3.5 Live Translate puede identificar y traducir más de 70 idiomas, soportando más de 2.000 combinaciones lingüísticas. Lo que es interesante es que también se traslada al territorio de las videollamadas con Google Meet. 

No importa si es para un uso personal o profesional, pero la herramienta estará disponible para todos los usuarios. La herramienta ya estará integrada en Google Translate en Android y en iOS. En Google Meet estará solo para clientes empresariales y también para desarrolladores en la API de Gemini Live y Google AI Studio. Lo positivo es que SynthID estará cubriendo estas funcionalidades; recordemos que es la marca de agua invisible para proteger el entorno de las personas. En este caso, para evitar estafas o engaños, además de que la voz estará siendo rastreada, dejando en claro que fue creada por un ordenador y que no hay una persona real.