Carregant...

Google ha tingut molt moviment en els últims mesos, considerant que ha estrenat nous models d'IA, a més d'obrir una bretxa important amb utilitats que canvien pràcticament la manera en la qual s'utilitza Gemini; encara queda una altra novetat rellevant enfocada en la traducció. S'ha anunciat Gemini 3.5 Live Translate, on s'exposa el primer model especialitzat i entrenat per a aquesta tasca de veu a veu.

Per la seva baixa latència, és possible escoltar dues persones a tal grau d'imitar el seu to de veu, a més de detectar i traduir els idiomes sense necessitat d'esperar el torn de la paraula o interrompre el flux del diàleg. Va més enllà d'una simple app per poder traduir veus i no podem oblidar-nos que Google Translate va assentar part de les bases, però avui és totalment radical aquest canvi.

Gemini vol competir contra OpenAI per eliminar les barreres de l'idioma amb IA

Es destaquen quatre aspectes que faran que l'eina de Google superi la d'OpenAI, que en té tres: GPT-Realtime-2, GPT-Realtime-Translate i GPT-Realtime-Whisper. Encara que algunes siguin destinades als desenvolupadors per part de l'empresa de Sam Altman, a Mountain View tenen un altre enfocament i volen arribar directament als usuaris. El model escoltarà de forma contínua i tradueix en el moment com si es tractés d'un humà que està interpretant. Evita les pauses que entorpien la conversa; en el seu lloc es parla i es pot processar l'àudio de tal forma que s'escolta l'àudio en temps i forma.

Google fa oficial Gemini 3.5 Live Translate

Moltes vegades es batalla amb la configuració inicial, col·locar els idiomes d'origen i destinació; això també ha quedat enrere. El reconeixement de l'idioma ajuda de tal forma que la IA de Google detecta de manera automàtica l'idioma de les persones que estan conversant. En eliminar la barrera de l'idioma, no només és a través del seu funcionament; Gemini 3.5 Live Translate pot identificar i traduir més de 70 idiomes, suportant més de 2.000 combinacions lingüístiques. El que és interessant és que també es trasllada al territori de les videotrucades amb Google Meet.

No importa si és per a un ús personal o professional, però l'eina estarà disponible per a tots els usuaris. L'eina ja estarà integrada a Google Translate en Android i en iOS. A Google Meet estarà només per a clients empresarials i també per a desenvolupadors a l'API de Gemini Live i Google AI Studio. El positiu és que SynthID estarà cobrint aquestes funcionalitats; recordem que és la marca d'aigua invisible per protegir l'entorn de les persones. En aquest cas, per evitar estafes o enganys, a més que la veu estarà sent rastrejada, deixant clar que va ser creada per un ordinador i que no hi ha una persona real.