La verdad detrás de las alucinaciones de la IA generativa (y qué podemos hacer)

Los grandes modelos de lenguaje, incluso los más avanzados, generan afirmaciones falsas, aunque verosímiles, sin reconocer su propia incertidumbre. A este fenómeno se le llama alucinación: el modelo conjetura cuando no tiene suficiente evidencia y no admite el “no lo sé”. OpenAI, mediante el documento Why Language Models Hallucinate, sostiene que estas alucinaciones no son un capricho del software ni un defecto moral de las máquinas, sino la consecuencia de cómo se entrenan y de cómo se evalúan. Si el sistema recibe más recompensa por arriesgar una respuesta que por abstenerse, tenderá a responder incluso cuando no está seguro. Como en un examen tipo test, si no hay penalización por fallar y decir “no lo sé” puntúa cero, “adivinar” maximiza la nota esperada.

Este ensayo muestra que el comportamiento generativo de un modelo puede analizarse como un problema de clasificación binaria (respuestas válidas vs. inválidas). A partir de aquí, cualquier tasa de error en esta clasificación se traduce en una tasa de errores en generación. Como premisa general, hay que indicar que hay casos sencillos donde el modelo separa bien lo correcto de lo incorrecto, casos donde el propio modelo es inadecuado y otros donde los hechos no siguen ningún patrón aprehensible.

Muchos hechos en el mundo son “arbitrarios” desde la perspectiva del modelo. El título de una tesis, la fecha de un evento menor o un código alfanumérico concreto aparecen quizás una vez en el corpus de entrenamiento. Cuando la frecuencia de estos singletons (hechos puntuales aislados) es alta, el sistema no tiene base estadística suficiente para generalizar y, ante preguntas con hechos raros, la tentación de conjeturar aumenta. Aunque el corpus fuera perfecto, el objetivo estadístico de predecir la siguiente palabra no evita un porcentaje de errores inevitables en dominios de baja redundancia.

El segundo componente del fenómeno aparece durante el postentrenamiento, en la evaluación. La mayor parte de los benchmarks y pruebas estándar califican con un esquema binario: correcto o incorrecto. Responder “no lo sé” computa como fallo, lo que empuja a los modelos a ofrecer una respuesta, aunque su probabilidad de acierto sea modesta. El resultado es que el calibrado (correspondencia entre seguridad del sistema y acierto real) se deteriora. Este sesgo hacia la respuesta también se manifiesta cuando incorporamos técnicas pensadas para reducir errores, como la recuperación aumentada con búsqueda documental o redes de razonamiento más extensas. Aunque de utilidad, si el criterio de evaluación premia responder y no concede crédito a la abstención justificada, el sistema seguirá “arriesgando” cuando la evidencia sea insuficiente.

La propuesta central de la publicación científica indicada es tan directa como poco habitual: introducir objetivos de confianza explícitos y dar crédito a la abstención cuando sea apropiada, para formular instrucciones y métricas que establezcan umbrales de confianza operativos. Si la probabilidad de acierto del modelo no supera un umbral dado, la respuesta esperada es “no lo sé”, y esta abstención puntuará de manera neutral –o positiva– frente a una conjetura errónea, dependiendo del contexto y el coste del error. No se trata de pedir al sistema que reporte números de probabilidades perfectas, sino que su comportamiento se alinee con metas de fiabilidad comprensibles y verificables.

Un esquema de evaluación con umbrales hace visibles los compromisos entre cobertura y precisión y permite adaptar el sistema a los riesgos de cada caso de uso. Incluir penalizaciones explícitas al error grave y reconocer la abstención como decisión legítima, orienta el aprendizaje y la selección de modelos hacia conductas más seguras. Esta lógica no solo es relevante para la investigación, sino para la ingeniería de producto: se puede instrumentar en prompts (o instrucciones), en políticas de decisión y en métricas de producción, monitorizando la tasa de abstención, la precisión condicionada a la alta confianza y los errores de mayor impacto.

La redacción de instrucciones puede incorporar umbrales de confianza operativos y mensajes estándar para la abstención. Los flujos de evaluación interna pueden pasar de una puntuación binaria a un esquema con penalización por error y reconocimiento de rechazos correctos. Los pipelines que utilizan recuperación documental deberían exigir confirmación explícita cuando la evidencia es débil. Y la observabilidad del sistema debería incluir métricas de calibración para detectar desviaciones y ajustar los umbrales con datos reales. De lo expuesto, no se sostiene que los modelos “mientan” en sentido humano, ni que la alucinación sea un defecto accidental que desaparecerá con más datos o más cómputo.

Tampoco se sugiere frenar la innovación y sí reequilibrar los incentivos para que el progreso técnico derive en sistemas que respondan mejor y reconozcan cuándo deben callar. ¿Y la cobertura? Al explicitar los umbrales, podemos escoger el punto de operación adecuado para cada dominio. En ámbitos de bajo riesgo quizás prefiramos mayor cobertura con umbrales más laxos; en aplicaciones sensibles, umbrales más estrictos y abstenciones frecuentes son una señal de responsabilidad, no de debilidad. En todos los casos, el criterio de éxito será “decir algo fiable” y no “decir algo”.

La verdad detrás de las alucinaciones de la IA generativa (y qué podemos hacer)

Llega la Tribuna IA, a cargo de Paul Berenguer (Bové Montero)