Fa uns anys, concretament el desembre de 2023, 9 investigadors van publicar un estudi relacionat amb un model de llenguatge multimodal de gran mida (MLLM). Es va distingir per comprendre referències en llenguatge natural a parts específiques d'una imatge. Els de Cupertino han estat treballant amb aquest llenguatge publicant documents de seguiment on s'ha vist ampliada aquesta família de models. El model final es diu Ferret-UI i que té altres models amb variants Ferret-UI 2, Ferret-UI i Ferretv2, per esmentar-ne alguns. L'avantatge és que té una capacitat increïble per interactuar amb les pantalles d'interfície d'usuari, per la qual cosa pot interactuar amb les aplicacions. Aquest és l'avenç que ha tingut fins aleshores.

Ferret-UI ha expandit les seves capacitats, ara pot admetre múltiples plataformes i una percepció amb major resolució

El model original va ser desenvolupat amb un model de paràmetres denominat 13B tenint com a prioritat la comprensió de la interfície d'usuari mòbil. Un dels models més lleugers com Ferret-UI Lite no deixava de ser competitiu malgrat ser més petit. En el nou article publicat, els investigadors indiquen que han tingut un "gran progrés" en els sistemes GUI de múltiples agents com de cap a cap.

El propòsit és agilitar les "moltes tasques que involucren la interacció d'agents amb les GUI". Cadascuna de les activitats normalment són molt grans i consumeixen molts recursos. Amb Ferret-UI Lite el que es proposa és funcionar amb 3 mil milions de paràmetres tenint components clau, dades d'entrenament reals i sintètiques de GUI, a més de sòlides tècniques de retall, zoom i aprenentatge supervisat.

Funcionament de Ferret-UI utilitzant una pantalla de l'App Store

En què millora respecte als altres models? És més lleuger, supera alguns d'ells que tenen fins a 24 vegades el seu recompte de paràmetres però tenen capacitats més definides com les tècniques esmentades anteriorment. I això és possible gràcies al fet que el model fa un tipus de predicció inicial per retallar-la i després torna a realitzar una predicció en aquesta part retallada.

Funcionament de Ferret-UI Lite

Ferret-UI Lite té un avantatge més, treballa en més entorns que no només siguin d'Apple

En models previs com Ferret-UI i Ferret-UI 2, es va treballar amb captures de pantalla d'iPhone i altres interfícies d'Apple. Ferret-UI Lite va ser entrenat directament en altres entorns GUI d'Android tenint referències d'AndroidWorld i OSWorld. Tot i que els investigadors no detallen el perquè van tenir aquesta elecció per al model, és potser perquè es poden trobar més bancs de proves amb agents GUI dels quals es poden saber més dades.

Així és com Ferret-UI Lite treballa de retall en retall de pantalla

El següent nivell seria perfeccionar-lo en interaccions més complicades que tinguin més passos i això a causa que té un rendiment positiu en tasques de baix nivell i d'horitzó molt curt. No és culpa seva a causa de la seva pròpia naturalesa, és un agent local i privat que pot interactuar amb gairebé qualsevol interfície amb la sol·licitud de l'usuari, la qual cosa ja és una cosa molt bona. Veurem quins altres models vénen en camí a partir d'aquest treball.