Las instrucciones ocultas de la IA revelan cómo Anthropic controla a Claude 4

Si el público general tiene algún conocimiento acerca de la inteligencia artificial es gracias a ChatGPT. El bot conversacional de OpenAI se ha convertido casi en un sinónimo de esta tecnología, que tantos millones de personas utilizan a diario para realizar sus tareas con mayor facilidad. De hecho, más de 10 millones de usuarios pagan mensualmente por acceder a las funciones más avanzadas del chatbot de Sam Altman, CEO de OpenAI.

Los menos entendidos desconocen que existe vida más allá de ChatGPT. Existen otras alternativas muy interesantes con funciones similares. Sin ir más lejos, Gemini de Google, Copilot de Microsoft o Grok de xAI, la startup de Elon Musk especializada en IA (aunque no es la más recomendable).

Una de las alternativas más potentes a ChatGPT es Claude, conocida como uno de los sistemas de inteligencia artificial más completos y fiables del mercado. La compañía tras su desarrollo es Anthropic, y acaba de lanzar sus nuevos modelos Opus y Sonnet. Una serie de instrucciones ocultas revelan cómo Anthropic lo controla.

Conociendo un poco más a fondo el funcionamiento de Claude

Simon Willison, investigador independiente de IA, publicó recientemente un análisis detallado de las nuevas indicaciones de Anthropic para los modelos Opus 4 y Sonnet 4 de Claude 4, ofreciendo información sobre cómo la compañía controla el comportamiento de dichos modelos a través de sus resultados.

Willison examinó tanto las indicaciones publicadas como las filtradas de las herramientas para revelar lo que él llama “una especie de manual no oficial sobre el mejor uso de estas herramientas”. Las indicaciones en los modelos de lenguaje grande son instrucciones que las empresas que desarrollan IA envían a los modelos antes de cada conversación para determinar cómo deben responder.

Las indicaciones del sistema suelen permanecer ocultas para el usuario, pero sirven al modelo para conocer su «identidad», pautas de comportamiento y reglas específicas a seguir. De este modo, cada vez que el usuario le envía un mensaje, el modelo de IA recibe el historial completo de la conversación junto con la indicación del sistema; una manera de mantener el contexto mientras sigue sus instrucciones.

Si bien Anthropic ha publicado algunos de los indicadores en sus notas de lanzamiento, están incompletos, según el análisis realizado por Willison. Los indicadores completos incluyen instrucciones detalladas para herramientas como la búsqueda web y la generación de código, y para llegar a ellos hay que extraerlos mediante técnicas como la inyección de indicadores.

Una de las conclusiones a las que ha llegado Willison es que las empresas de IA se enfrentan a un comportamiento adulador en sus modelos. Los usuarios de ChatGPT habrán notado que, desde hace unas semanas, al bot conversacional le parece que cada pregunta hecha por el usuario es interesantísima y buenísima, cuando en realidad puede ser la más «tonta» del mundo.

No obstante, Willison ha descubierto cómo Anthropic ha guiado a ambos modelos de Claude para evitar el comportamiento adulador. “Claude nunca comienza su respuesta diciendo que una pregunta, idea u observación fue buena, genial, fascinante, profunda, excelente o cualquier otro adjetivo positivo. Evita los halagos y responde directamente”.

Claude 4 también incluye instrucciones detalladas sobre cuándo Claude debe o no usar viñetas y listas, con varios párrafos dedicados a desaconsejar la elaboración frecuente de listas en conversaciones informales: “Claude no debe usar viñetas ni listas numeradas para informes, documentos, explicaciones, a menos que el usuario solicite explícitamente una lista o clasificación”.

Más

Las instrucciones ocultas de la IA revelan cómo Anthropic controla a Claude 4

Las instrucciones de Claude 4, al igual que las del resto de inteligencias artificiales, permanecen ocultas para los usuarios

Conociendo un poco más a fondo el funcionamiento de Claude