DeepSeek ha presentado un innovador modelo multimodal que combina texto e información visual para procesar documentos extensos con unos requisitos computacionales significativamente inferiores a los de los sistemas actuales. Esta tecnología, asegura la empresa, promete democratizar el acceso a las IA más avanzadas, podría cambiar las reglas del juego en sectores como las finanzas, la investigación científica y la administración pública.

El sistema, bautizado como DeepSeek-OCR, utiliza la percepción visual como mecanismo de compresión para disminuir drásticamente el número de tókenes, las unidades mínimas de texto que procesan los modelos lingüísticos. La información, divulgada por el diario South China Morning Post, revela que este método es capaz de reducir el volumen de texto entre siete y veinte veces, un avance sin precedentes en el campo del procesamiento de documentos.

Según ha explicado la compañía, la tecnología permitiría gestionar grandes volúmenes de información sin incrementar los costes computacionales, uno de los principales obstáculos en la implementación masiva de sistemas de IA en entornos corporativos y académicos. "Estamos rompiendo la barrera económica que impedía a muchas organizaciones acceder a las capacidades más avanzadas de procesamiento de documentos", ha señalado un portavoz de DeepSeek. El modelo, ya disponible en código abierto en las plataformas Hugging Face y GitHub -espacios utilizados por desarrolladores para alojar y compartir modelos de IA y código-, se compone de dos elementos fundamentales: un codificador visual (llamado DeepEncoder) y un decodificador con la arquitectura Mixture-of-Experts (MoE) de 570 millones de parámetros.

Esta arquitectura MoE representa una de las claves de su eficiencia, ya que permite activar selectivamente solo las partes relevantes del modelo para cada tarea específica, optimizando así los recursos computacionales. El sistema no se limita al reconocimiento de texto convencional, sino que interpreta elementos visuales complejos como tablas, fórmulas matemáticas o diagramas técnicos, ampliando considerablemente su campo de aplicación.

Las pruebas de rendimiento publicadas por DeepSeek demuestran que su modelo ha superado significativamente a alternativas establecidas en el mercado como GOT-OCR 2.0 y MinerU 2.0. El sistema ha logrado mantener una precisión del 97% a pesar de aplicar una compresión inferior a diez veces, un equilibrio entre eficiencia y exactitud que hasta ahora se consideraba difícil de alcanzar.

Uno de los aspectos más destacables de la tecnología es su capacidad para generar más de 200.000 páginas de datos de entrenamiento diarias utilizando una única tarjeta gráfica Nvidia A100-40G. Este nivel de eficiencia en la generación de datos de entrenamiento abre posibilidades hasta ahora restringidas a laboratorios con grandes presupuestos computacionales. El lanzamiento de DeepSeek-OCR se inscribe dentro de la estrategia de la compañía para desarrollar modelos más eficientes y de menor coste, como ya quedó patente en sus anteriores versiones V3 y R1, centradas en el razonamiento y el aprendizaje por refuerzo. Fundada en Hangzhou -el corazón de la industria tecnológica china-, DeepSeek se ha consolidado como un actor relevante en la ola de desarrolladores chinos de IA de código abierto, junto a gigantes como Baidu, Tencent o Alibaba.

La compañía ha señalado que su filosofía de código abierto responde a un compromiso con la democratización de la inteligencia artificial y la creación de un ecosistema colaborativo que acelere la innovación en este campo. No obstante, esta aproximación contrasta con las estrategias de muchas compañías occidentales, que tienden a mantener sus modelos más avanzados bajo estrictos controles de propiedad intelectual.

A pesar del entusiasmo generado por este avance tecnológico, algunos expertos alertan de que las estrictas regulaciones sobre contenido en China podrían limitar la expansión internacional de estos sistemas. Las políticas de gobernanza de datos y las restricciones en ciertos tipos de contenido representan retos significativos para la implantación global de IA desarrolladas bajo el marco regulatorio chino.

Las posibles aplicaciones de esta tecnología se extienden a múltiples sectores:

-Finanzas y contabilidad: Procesamiento automatizado de facturas, informes financieros y documentos contables con estructuras complejas.

-Investigación científica: Análisis eficiente de artículos académicos que combinan texto, fórmulas y gráficos sin necesidad de procesamiento manual.

-Administración pública: Digitalización masiva de archivos históricos y documentos administrativos con costes reducidos.

-Educación: Creación de sistemas de tutorización inteligente capaces de interpretar materiales educativos en múltiples formatos.

La aparición de DeepSeek-OCR representa un paso significativo hacia la creación de sistemas de IA más accesibles y sostenibles, cuestionando la actual tendencia hacia modelos cada vez más grandes y costosos. La comunidad tecnológica sigue con atención cómo esta tecnología se implementa en entornos reales y qué aceptación obtiene fuera de las fronteras chinas.