Les fotografies bidimensionals no tornaran a ser el mateix. Apple ha presentat SHARP (Sharp Monocular View Synthesis), un model d'intel·ligència artificial capaç de reconstruir una escena 3D fotorealista a partir d'una única imatge 2D en menys d'un segon. Aquesta tecnologia busca transformar la manera com interactuem amb les nostres biblioteques de fotos, permetent-nos veure dins d'una imatge amb una profunditat i escala sorprenents.

El nucli tecnològic de SHARP es basa en una tècnica coneguda com 3D Gaussian Splatting (esquitxada gaussiana 3D). Es tracta d'una petita taca difusa de llum i color situada en un punt específic de l'espai. En combinar milions d'aquestes taques, el sistema aconsegueix recrear una escena que se sent sòlida i fidel a la realitat des del punt de vista original.

SHARP: Apple aprofita la IA per generar imatges increïbles

El que fa que SHARP sigui veritablement disruptiu és la seva eficiència. Mentre que altres mètodes necessiten un processament intensiu i múltiples captures per calcular la geometria d'una habitació o un paisatge, el model d'Apple ho aconsegueix mitjançant un únic pas d'avanç a través d'una xarxa neuronal.

Segons l'estudi publicat pels investigadors d'Apple, titulat Sharp Monocular View Synthesis in Less Than a Second, el model estableix un nou estàndard de rendiment en la indústria, ja que ofereix velocitat extrema, escala consistent amb el món real i qualitat visual.

Per assolir aquest nivell de precisió, Apple va entrenar el model amb ingents quantitats de dades sintètiques i reals. Això permet que la IA "entengui" patrons comuns de profunditat. D'aquesta manera, sap com es comporta la perspectiva d'una taula o la distància d'una paret, cosa que li permet predir la posició de milions de gaussianes 3D de forma gairebé instantània.

Malgrat la seva potència, SHARP està dissenyat per a renderitzar vistes properes. Això significa que, encara que pots moure lleugerament la càmera per a veure "darrere" dels objectes propers o canviar la perspectiva del terra, no pots allunyar-te massa ni girar completament. El sistema no inventa les parts de l'escena que estan totalment ocultes darrere d'un objecte, cosa que garanteix que el resultat final sigui sempre creïble i no una al·lucinació visual.

A diferència de Apple Intelligence i altres models d'IA, el codi de SHARP ha estat publicat a GitHub, permetent que desenvolupadors i entusiastes de tot el món comencin a experimentar amb les seves pròpies fotografies, compartint resultats que fins fa mesos semblaven impossibles d'aconseguir sense equips d'escaneig professional. Alguns dels primers a provar-ho han compartit els resultats en xarxes socials, com veiem a continuació:

https://x.com/AIRevSpot/status/2001310621275705458 https://x.com/timd_ca/status/2000760184226943167

https://x.com/gerogerber/status/2000913723863535671 https://x.com/AKurian001/status/2000811593379275147 https://x.com/VisualitoXr/status/2001382288995815588

Esta tecnologia no és només un "experiment visual" curiós, sinó que representa un canvi radical en com consumim i creem contingut digital. La utilitat de SHARP s'estén a diversos camps que afecten tant usuaris comuns com indústries professionals. Tot i que encara existeixen reptes amb l'oclusió d'objectes, la capacitat de generar entorns 3D mètrics en menys d'un segon posiciona aquesta eina com el nou referent en la reconstrucció visual assistida per IA.