Gemini Omni, una IA de Google per crear qualsevol cosa

Aquest 19 de maig va ser el dia escollit per l'empresa de Mountain View per celebrar una nova edició del seu esdeveniment I/O on ha fet grans anuncis, des de canviar l'experiència al seu cercador fins a proporcionar una experiència nova per a compres en línia, tot amb l'ajuda de la IA. Un dels grans anuncis ha estat Gemini Omni, una família unificada de models generatius que permetrà crear vídeos realistes amb un toc nou.

Sabem que Google té els models Genie, Veo i Nano Banana per poder crear i editar vídeos i imatges mitjançant prompts, a més d'alimentar la informació amb imatges. La mostra és que Gemini Omni reuneix el millor en un sol model que pot oferir quelcom coherent i estable.

Gemini Omni, la IA escala un nou nivell de continguts amb IA

El nou model també pot aprofitar la comprensió multimodal que es basa en la realitat. En un inici, es presenta com la possibilitat de millorar els continguts d'IA amb vídeo, però serà possible usar-la com una eina que crea pràcticament qualsevol cosa amb qualsevol entrada. Combinarà text, imatges, vídeo i àudio, en aquest últim mitjançant mostres de veu. Una vegada que existeixi una primera generació de contingut, es podrà perfeccionar amb prompts posteriors.

Les demostracions fetes a l'esdeveniment van ser sorprenents. El millor és que sembla un vídeo real, sense tanta saturació d'aquesta IA ofensiva que s'ha fet viral a les xarxes. Un dels exemples contundents és el vídeo mostrat d'una bala rodant en un puzle, basant-se purament en la física, a més de tenir efectes de so que el complementen de manera perfecta. Un altre vídeo ho fa explicant alguna cosa sobre les proteïnes i ho fa amb una animació bastant interessant amb plastilina.

El curiós és que Genie només està disponible per als subscriptors de Google AI Ultra, Gemini Omni serà més accessible i els subscriptors d'AI Plus i superiors ja podran provar-lo. Gemini Omni Flash està disponible a partir d'aquest moment. Per compartir aquests vídeos al món, podràs fer-ho a través del creador de YouTube i a YouTube Shorts, encara que això estarà disponible a finals de setmana. Gemini Omni només és l'inici d'alguna cosa més gran, ja que hi haurà un model superior anomenat Omni Pro, encara no es coneixen tots els detalls i s'anirà desplegant a poc a poc.

Aquests continguts es cuidaran d'aquesta manera, fent ús de la IA de manera responsable

Estem davant d'un nivell tecnològic de realisme important que haurem de tractar adequadament. La IA ja és aquí d'una forma que ens continua sorprenent, evoluciona i ens dona més eines. Google prendrà mesures perquè aquests vídeos es generin de manera responsable. És per això que es crearà un avatar personalitzat que estarà present en els vídeos creats. Omni no podrà editar àudio ni diàleg dels vídeos fins que Google desenvolupi enterament la funció per als usuaris amb responsabilitat.

El que va cridar l'atenció al final de la presentació és el mecanisme de seguretat implantat per Google. Tots els vídeos creats amb Gemini Omni tindran una marca d'aigua SynthID que els farà fàcilment identificables com a generats amb IA. Si tu veus un vídeo i dubtes de la seva creació, pots preguntar-li a Gemini si el vídeo és una IA i et donarà tota la informació.

Pel que sembla, els vídeos amb IA no estaven perduts com ho va deixar veure Sora d'OpenAI. Google ho va reprendre de gran manera i ho ha fet veure com una cosa necessària. És bo generar aquesta classe de continguts i el millor és que Google sap que ha de ser una cosa responsable i no deixar-ho a l'atzar. Estem en el compte enrere per començar a veure els vídeos generats amb Gemini Omni, una cosa que podria impulsar la competència novament entre les grans companyies.