L'equip d'investigadors d'Apple enfocats en la IA estan realitzant treballs interessants respecte a nous models d'edició d'imatges, el qual ha presentat un avanç important. El model anomenat UniGen té una primera actualització UniGen 1.5, el model ara pot gestionar la comprensió, generar i editar imatges sense recórrer a un altre model. Al maig van presentar un avanç d'un model de llenguatge multimodal unificat de gran mida que podia comprendre i generar imatges en un sol sistema, en lloc de tenir models separats per a cadascuna de les tasques. Vegem quant han avançat en la versió 1.5.

Apple està treballant fortament en els seus propis models, és moment de conèixer el nou d'UniGen 1.5

El més rellevant és que s'afegeix la capacitat d'edició d'imatges dins d'un sol marc unificat. Significa que ja no es fa la divisió de la comprensió, generació i edició en diversos sistemes. És rellevant perquè la comprensió i generació requereixen d'una comprensió diferent respecte al seu enfocament. Ara que el model els unifica es pot aprofitar la capacitat de compressió que al seu torn milloraria el rendiment de la generació.

El més important és entendre en la seva totalitat les instruccions per complexes que aquestes siguin respecte a l'edició, especialment quan són massa suaus o molt específiques. En lloc de demanar al model que millori mitjançant aprenentatge, ara s'aplicarà un entrenament per tenir una descripció textual amb detall del que s'ha d'editar a la imatge prenent com a base la imatge original i la instrucció. El següent gràfic ho il·lustra a la perfecció juntament amb una imatge d'exemple.

Investigació d'UniGen 1.5, model d'IA d'Apple

Millora del model UniGen 1.5 d'Apple

Els investigadors estan utilitzant l'aprenentatge del reforç d'una manera important i que és l'avenç central de la versió 1.5, utilitzar el sistema de recompensa per a la generació i l'edició d'imatges. UniGen 1.5 està al mateix nivell o supera altres models de llenguatge multimodal grans i oberts de darrera generació.

Encara hi ha feina per fer respecte a la generació de text i algunes qüestions de coherència

Investigación de UniGen 1.5, modelo de IA de Apple

Alguns exemples del treball d'UniGen 1.5

Sabem que no tot és perfecte i els mateixos investigadors assenyalen que hi ha algunes mancances. Respecte al següent gràfic, s'evidencien alguns casos on hi ha inconvenients en la generació de text a imatge, a més de l'edició. Per exemple, UniGen 1.5 no va aconseguir representar alguns caràcters de text en imatge apropiadament (cosa que també va passar amb els primers models d'altres marques). En altres exemples hi ha problemes d'identitat, es van fer amb animals i és possible veure diferències en els colors que són evidents.

Investigació d'UniGen 1.5, model d'IA d'Apple

Errors del model UniGen 1.5 respecte al text en imatge

Aquests avenços són significatius i veiem que l'equip d'investigadors d'Apple va per bon camí. Sabem que Roma no es va construir en un dia i res no canvia radicalment de la nit al dia, és la suma d'esforços per la qual cosa Apple s'està sumant a poc a poc a tenir una IA de qualitat. Què opines d'aquests avenços?