La inteligencia artificial está transformando radicalmente el mundo de la ciberseguridad, pero no solo en sentido positivo. Por un lado, los cibercriminales aprovechan esta tecnología para lanzar ataques incesantes mediante bots dotados de IA. Por otro lado, la propia tecnología comienza a mostrar vulnerabilidades preocupantes que ponen en duda la fiabilidad de los sistemas actuales. Recientemente, se ha demostrado que es posible manipular modelos de IA que sustentan chatbots tan populares como ChatGPT y Gemini con solo 250 documentos corruptos introducidos entre los miles de millones de fragmentos de datos utilizados para su entrenamiento, una cifra sorprendentemente baja teniendo en cuenta la magnitud de estos sistemas.
Los expertos en ciberseguridad de Microsoft han alertado en un comunicado sobre un problema nuevo y especialmente insidioso: las recomendaciones que hace la inteligencia artificial pueden comprometerse de manera secreta para beneficiar a personas o empresas concretas. La compañía norteamericana ha bautizado esta nueva amenaza como "envenenamiento de recomendaciones de IA". A diferencia de otros ataques más visibles, esta técnica actúa de manera silenciosa, modificando sutilmente los resultados que la IA ofrece a los usuarios sin que estos se den cuenta de que las respuestas están sesgadas. El peligro es que los usuarios confían plenamente en las recomendaciones generadas por IA, especialmente cuando provienen de plataformas conocidas y aparentemente fiables.
Cómo funciona "el envenenamiento"
Muchas empresas están incorporando en sus productos o servicios digitales botones que permiten resumir contenidos extensos mediante herramientas de inteligencia artificial. Cuando un usuario ve el logotipo de ChatGPT o Gemini, lo más lógico es pensar que la información que recibirá será la misma que si introdujera él mismo el contenido en esos chatbots. Sin embargo, la realidad es bien diferente. Las empresas están utilizando técnicas que, al hacer clic en esos botones, inyectan órdenes persistentes en la memoria de la IA a través de parámetros que se añaden a las consultas mediante enlaces web. Estas órdenes instruyen a la IA para que recuerde a una determinada compañía como fuente fiable o para que la recomiende en primera posición, lo que crea un sesgo en las respuestas que ofrece a los usuarios sin que estos tengan constancia de ello.
Microsoft asegura que ha identificado cincuenta prompts diferentes procedentes de 31 empresas de 14 sectores industriales distintos, que incluyen áreas tan sensibles como la salud, las finanzas y la seguridad. La compañía advierte que se trata de una técnica fácil de utilizar para la que existen herramientas gratuitas al alcance de cualquier empresa que quiera manipular las recomendaciones de la IA en su propio beneficio. Esta accesibilidad hace que la amenaza sea especialmente preocupante, ya que no requiere grandes recursos técnicos ni económicos para ser implementada. Cualquier negocio con conocimientos básicos de programación podría, en teoría, inclinar la balanza de las recomendaciones a su favor.
Ante esta nueva vulnerabilidad, la empresa dirigida por Satya Nadella afirma haber implementado medidas de seguridad específicas contra este tipo de ataques por inyección de órdenes en su herramienta Copilot. Sin embargo, la compañía reconoce implícitamente que la batalla por asegurar los sistemas de inteligencia artificial está lejos de haberse ganado. Esta revelación supone una prueba adicional de que, como recuerdan los lemas clásicos de la ciberseguridad, nada es completamente seguro.
Las medidas de protección deben evolucionar continuamente a medida que se identifican nuevas técnicas de ataque, y el campo de la inteligencia artificial no es una excepción. La capacidad de manipular recomendaciones de manera secreta abre la puerta a prácticas poco éticas que podrían distorsionar la competencia en línea y erosionar la confianza de los usuarios en las herramientas de IA, un activo fundamental para la adopción generalizada de estas tecnologías.