Apple continua explorant i expandint les seves capacitats més enllà del que imaginàvem fa poc. Si fa uns dies ens sorpreníem amb els avenços en el desenvolupament de funcions d'accessibilitat per aconseguir controlar l'iPhone amb la ment, avui la companyia ens presenta una nova i intrigant innovació: la possibilitat que l'iPhone sigui capaç de generar models 3D detallats a partir de tan sols unes poques fotografies, impulsat per Apple Intelligence
Aquest avenç que s'ha conegut gràcies a la publicació d'un document tècnic, es materialitza en un model d'IA anomenat Matrix3D, ha estat desenvolupat per l'equip d'aprenentatge automàtic d'Apple en col·laboració amb prestigioses universitats i promet revolucionar la manera com capturem i recreem el món que ens envolta, obrint un univers de possibilitats per a aplicacions futures, incloent-hi les immersives experiències de les Apple Vision Pro.
Apple demostra el seu compromís amb la innovació en l'àmbit de la IA
El Matrix3D és un model de fotogrametria de grans dimensions que simplifica radicalment el procés de creació de models 3D. Tradicionalment, la fotogrametria, la tècnica que utilitza fotografies per fer mesuraments i construir representacions tridimensionals, involucra múltiples models d'IA per a diferents etapes, com l'estimació de la posició de la càmera i la predicció de la profunditat. Aquest enfocament fragmentat pot generar ineficiències i errors en el resultat final.
La gran diferència de Matrix3D rau en la seva arquitectura unificada. Aquest model és capaç de processar simultàniament les imatges 2D, els paràmetres de la càmera (com l'angle de visió i la distància focal) i les dades de profunditat, tot en un sol flux de treball. Aquesta integració no només agilitza el procés, sinó que també millora significativament la precisió de les reconstruccions 3D.

Matrix3D completa informació mancant per generar models 3D basat en fotos 2D
Els investigadors d'Apple van emprar una tècnica d'"aprenentatge emmascarat", similar a la que va impulsar els primers models de llenguatge basats en Transformers i va establir les bases per a les primeres versions de ChatGPT. Durant l'entrenament, es van ocultar aleatòriament parts de les dades d'entrada, obligant Matrix3D a aprendre a "omplir" els buits d'informació que faltava i el fa més adaptable a escenaris del món real on la informació visual pot no ser perfecta.
Aquests resultats suggereixen que a curt termini, podria millorar significativament la qualitat i la facilitat de creació de contingut 3D per a aplicacions de realitat augmentada a l'iPhone. A llarg termini, les implicacions per a dispositius immersius com les Apple Vision Pro són encara més significatives, permetent la creació d'entorns virtuals més realistes.
Quan les aplicacions basades en Intel·ligència Artificial van arribar amb força fa uns pocs anys, semblava que Apple s'havia quedat enrere, i si va ser així, sens dubte no podem negar que ha trobat una gran manera de posar-se al dia. A més, amb la publicació del codi font, Apple convida la comunitat a explorar i expandir les capacitats de Matrix3D.