Anthropic, l'empresa creadora de Claude, acaba de detonar un dels debats més sensibles en el món de la intel·ligència artificial: Què tan imparcial pot ser realment un chatbot? I, sobretot: com es mesura aquesta imparcialitat? La companyia ha publicat un informe demolidor acompanyat d'un test de codi obert que compara el biaix polític de models com Claude, Gemini, Grok, ChatGPT i Llama. L'eina arriba en un moment important, on els Estats Units va endurir les seves regles sobre IA després d'una ordre executiva del president Trump que prohibeix utilitzar sistemes amb biaix polític en agències federals.

Però més enllà de la polèmica regulatòria, les dades tècniques deixen una conclusió important: la majoria dels grans models són més imparcials del que es creia, tot i que les diferències entre ells continuen sent significatives.

Un test per a mesurar la "imparcialitat" que ningú havia aconseguit estandarditzar

El nou sistema d'Anthropic mesura el que l'empresa anomena evenhandedness, una aproximació a la idea d'imparcialitat política, i analitza tres aspectes:

  • Si el chatbot aconsegueix representar diferents punts de vista de manera equilibrada.
  • Amb quina freqüència evita respondre preguntes sensibles.
  • Com distribueix els seus arguments entre diferents corrents ideològics.

La metodologia, anomenada Paired Prompts, compara respostes paral·leles i avalua la inclinació cap a postures progressistes, conservadores o llibertàries. Anthropic a més va alliberar tot el codi a GitHub perquè qualsevol pugui auditar-lo, modificar-lo o proposar noves mètriques.

La intenció és obrir el debat, perquè la companyia reconeix una cosa evident: no hi ha consens global sobre què significa "biaix polític" en una IA. Una mateixa resposta pot semblar equilibrada per a alguns usuaris i esbiaixada per a altres, i aquesta subjectivitat converteix el problema en un camp minat per a investigadors i reguladors.

Els resultats: Gemini i Grok sorprenen, ChatGPT queda enrere

Segons les dades recopilades per Axios a partir de l'estudi, aquests són els nivells d'imparcialitat obtinguts per cada model:

  • Gemini 2.5 Pro (Google): 97%
  • Grok 4 (xAI): 96%
  • Claude Opus 4.1 (Anthropic): 95%
  • Claude Sonnet 4.5: 94%
  • ChatGPT (OpenAI): 89%
  • Llama 4 (Meta): 66%

La dada més cridanera: Grok obté una puntuació més alta que Claude, malgrat que Elon Musk ha acusat repetidament altres IA de tenir un biaix "progressista". Així i tot, estudis externs continuen ubicant Grok en el quadrant liberal/llibertari dels tests polítics, tot i que lleugerament més a la dreta que ChatGPT o Gemini.

Els estudis indiquen que la IA serà un agent molt important en les eleccions més importants del món a partir de 2027

Un debat polític disfressat de debat tècnic

La publicació de l'eina coincideix amb un clima regulador extremadament polaritzat als Estats Units. L'ordre executiva 14319, signada per Trump el juliol de 2025, prohibeix a agències federals i contractistes utilitzar sistemes d'IA que integrin "dogmes ideològics", esmentant específicament els principis DEI (diversitat, equitat i inclusió) com "una ideologia destructiva".

L'ordre exigeix que els models prioritzin:

  • precisió històrica
  • investigació científica
  • neutralitat verificable

Però hi ha un problema: no defineix quines mètriques s'han d'usar per mesurar això. El resultat és un llimbs normatiu en què les empreses intenten endevinar què entén el govern per "neutralitat".

Mentrestant, altres potències avancen en direcció oposada. La Xina acaba de llançar una ofensiva per controlar la IA i frenar la desinformació, afavorint el control estatal per damunt del debat tècnic.

Pot una IA ser neutral si els fets no ho són?

Fins i tot amb un sistema tan estructurat com Paired Prompts, Anthropic admet limitacions importants. Sorgeixen diversos dilemes com:

  • Ha de prioritzar la IA la "neutralitat percebuda" o la "precisió factual"?
  • Què passa quan l'evidència científica afavoreix objectivament una postura?
  • Com evitar que els usuaris interpretin una resposta factual com un biaix polític?

La companyia afirma que la seva eina no és un estàndard definitiu, sinó un punt de partida per a una discussió més àmplia dins de la indústria.

La transparència com a arma i com a problema: així pinten les eleccions a partir de 2027

La decisió d'Anthropic d'obrir el codi contrasta amb les posicions més alarmistes de figures com Eric Schmidt, ex CEO de Google, que ha advertit que la IA podria causar "moltes persones ferides o assassinades" si no es regula estrictament. Però per a Anthropic, la transparència és l'única manera d'avançar: si no entenem com es comporten els models, no podem corregir els seus biaixos.

Però també hi ha un costat incòmode: alguns resultats no afavoreixen la pròpia empresa. El fet que Grok superi Claude en imparcialitat és un cop simbòlic, però reforça la credibilitat de la prova: si l'eina estigués dissenyada per afavorir Anthropic, els resultats serien diferents.

La nova eina d'Anthropic aporta dades valuoses i obre la porta a una avaluació més objectiva del biaix polític en la IA. Tanmateix, per a molts el problema continua igual: no existeix una fórmula universal per a definir què és neutralitat política en un sistema intel·ligent.

Les empreses han d'equilibrar: precisió factual, percepció pública, compliment normatiu i utilitat real del model. Per ara, cap model ha trobat la resposta perfecta. Però aquest estudi (i la decisió de fer-lo obert) representa un dels passos més importants cap a una IA més transparent, auditable i responsable. Però igual existirà el temor que les IA canviïn de pensar segons els usuaris, per la qual cosa no sabem si aquesta transparència serà per a tots.