DeepSeek ha presentat un innovador model multimodal que combina text i informació visual per processar documents extensos amb uns requisits computacionals significativament inferiors als dels sistemes actuals. Aquesta tecnologia, assegura l'empresa, promet democratitzar l'accés a les IA més avançades, podria canviar les regles del joc en sectors com les finances, la recerca científica i l'administració pública.
El sistema, batejat com DeepSeek-OCR, utilitza la percepció visual com a mecanisme de compressió per disminuir dràsticament el nombre de tokens, les unitats mínimes de text que processen els models lingüístics. La informació, divulgada pel diari South China Morning Post, revela que aquest mètode és capaç de reduir el volum de text entre set i vint vegades, un avenç sense precedents en el camp del processament de documents.
Segons ha explicat la companyia, la tecnologia permetria gestionar grans volums d'informació sense incrementar els costos computacionals, un dels principals obstacles en la implementació massiva de sistemes d'IA en entorns corporatius i acadèmics. "Estem trencant la barrera econòmica que impedia a moltes organitzacions accedir a les capacitats més avançades de processament de documents", ha assenyalat un portaveu de DeepSeek. El model, ja disponible en codi obert a les plataformes Hugging Face i GitHub -espais utilitzats per desenvolupadors per allotjar i compartir models d'IA i codi-, es compon de dos elements fonamentals: un codificador visual (anomenat DeepEncoder) i un descodificador amb l'arquitectura Mixture-of-Experts (MoE) de 570 milions de paràmetres.
Aquesta arquitectura MoE representa una de les claus de la seva eficiència, ja que permet activar selectivament només les parts rellevants del model per a cada tasca específica, optimitzant així els recursos computacionals. El sistema no es limita al reconeixement de text convencional, sinó que interpreta elements visuals complexos com taules, fórmules matemàtiques o diagrames tècnics, ampliant considerablement el seu camp d'aplicació.
Les proves de rendiment publicades per DeepSeek demostren que el seu model ha superat significativament a alternatives establertes en el mercat com GOT-OCR 2.0 i MinerU 2.0. El sistema ha aconseguit mantenir una precisió del 97% malgrat aplicar una compressió inferior a deu vegades, un equilibri entre eficiència i exactitud que fins ara es considerava difícil d'assolir.
Un dels aspectes més destacables de la tecnologia és la seva capacitat per generar més de 200.000 pàgines de dades d'entrenament diàries utilitzant una única targeta gràfica Nvidia A100-40G. Aquest nivell d'eficiència en la generació de dades d'entrenament obre possibilitats fins ara restringides a laboratoris amb grans pressuposts computacionals. El llançament de DeepSeek-OCR s'inscriu dins l'estratègia de la companyia per desenvolupar models més eficients i de menor cost, com ja va quedar palès en les seves anteriors versions V3 i R1, centrades en el raonament i l'aprenentatge per reforç. Fundada a Hangzhou -el cor de la indústria tecnològica xinesa-, DeepSeek s'ha consolidat com un actor rellevant en l'ona de desenvolupadors xinesos d'IA de codi obert, al costat de gegants com Baidu, Tencent o Alibaba.
La companyia ha assenyalat que la seva filosofia de codi obert respon a un compromís amb la democratització de la intel·ligència artificial i la creació d'un ecosistema col·laboratiu que acceleri la innovació en aquest camp. No obstant això, aquesta aproximació contrasta amb les estratègies de moltes companyies occidentals, que tendeixen a mantenir els seus models més avançats sota estrictes controls de propietat intel·lectual.
Tot i l'entusiasme generat per aquest avenç tecnològic, alguns experts alerten que les estrictes regulacions sobre contingut a la Xina podrien limitar l'expansió internacional d'aquests sistemes. Les polítiques de governança de dades i les restriccions en certs tipus de contingut representen reptes significatius per a la implantació global d'IA desenvolupades sota el marc regulatori xinès.
Les possibles aplicacions d'aquesta tecnologia s'estenen a múltiples sectors:
-Finances i comptabilitat: Processament automatitzat de factures, informes financers i documents comptables amb estructures complexes.
-Recerca científica: Anàlisi eficient de papers acadèmics que combinen text, fórmules i gràfics sense necessitat de processament manual.
-Administració pública: Digitalització massiva d'arxius històrics i documents administratius amb costos reduïts.
-Educació: Creació de sistemes de tutorització intel·ligent capaços d'interpretar materials educatius en múltiples formats.
L'aparició de DeepSeek-OCR representa un pas significatiu cap a la creació de sistemes d'IA més accessibles i sostenibles, qüestionant l'actual tendència cap a models cada vegada més grans i costosos. La comunitat tecnològica segueix amb atenció com aquesta tecnologia s'implementa en entorns reals i quina acceptació obté fora de les fronteres xineses.