Google ha fet un pas significatiu en l'evolució de la intel·ligència artificial amb el llançament de Gemini Live, una funció que permet al seu assistent virtual analitzar i comprendre en temps real l'entorn visual de l'usuari. Aquesta innovació combina visió per computadora i aprenentatge automàtic per oferir respostes contextuals basades en imatges capturades per la càmera del dispositiu.

L'any passat, Google va anunciar en la seva conferència anual un desenvolupament batejat com a Project Astra. Es tractava d'un pla per crear un assistent universal que realment entengués el món que envolta l'usuari i pogués reconèixer i respondre sobre qualsevol cosa que ens trobéssim, veient-ho a través de la càmera del mòbil o d'unes ulleres intel·ligents.

Onze mesos més tard, la companyia ha alliberat una de les seves funcions més prometedores a l'hora de treure profit de la intel·ligència artificial als nostres smartphones, la qual cosa apropa una mica més el Project Astra a la realitat. A partir d'ara, Gemini Live, la manera de veu de la IA de Google, podrà dialogar amb els usuaris sobre el que estan veient a través de la càmera o a la pantalla del mòbil. Això és possible gràcies a les capacitats multimodals d'aquesta tecnologia.

Interacció en temps real amb l'entorn

Gemini Live permet als usuaris interactuar de manera més natural amb els seus dispositius Android. En apuntar la càmera cap a objectes, textos o escenes, l'assistent pot identificar elements, traduir textos en viu i proporcionar informació rellevant sobre el que es mostra en pantalla. Per exemple, en enfocar un menú en un restaurant, Gemini Live pot traduir el text i recomanar plats populars.

Funcionalitats avançades i disponibilitat

Entre les característiques destacades de Gemini Live es troben:

-Anàlisi d'imatges en viu: L'assistent processa imatges capturades en temps real per oferir informació detallada sobre el contingut visual.

-Integració amb aplicacions de Google: Gemini Live interactua amb serveis com Gmail, YouTube i Google Maps, proporcionant assistència contextual basada en el contingut visualitzat. ​

-Suport multilingüe: La funció està disponible en diversos idiomes, facilitant el seu ús en diferents regions.

Actualment, Gemini Live està disponible per a dispositius Píxel 9 i s'espera la seva expansió a altres models Android en els pròxims mesos. Per accedir a aquesta funció, és necessari subscriure's a Gemini Advanced sota el pla Google One AI Prèmium. ​

Píxel 9a Google
Píxel 9a Google

Impacte en l'experiència de l'usuari

La incorporació de Gemini Live representa un avenç significatiu en la forma en què interactuem amb els nostres dispositius. En integrar capacitats de visió per computadora en un assistent virtual, Google ofereix una eina que entén i respon a l'entorn visual de l'usuari, millorant l'accessibilitat i l'eficiència en tasques diàries. Aquesta innovació obre la porta a noves possibilitats en la interacció humà-tecnologia, on els dispositius no només responen a comandos, sinó que també comprenen i contextualitzen el món que ens envolta.

En resum, Gemini Live marca una fita en l'evolució dels assistents virtuals, combinant intel·ligència artificial i visió per computadora per oferir una experiència més immersiva i personalitzada. A mesura que aquesta tecnologia es desplega a més dispositius i regions, s'espera que transformi la manera en què interactuem amb la informació i l'entorn digital.

Google logo Robert Scoble Flickr
Google logo Robert Scoble Flickr