El aumento del contenido generado por IA en fuentes de información populares plantea importantes preocupaciones sobre la responsabilidad, la precisión y la amplificación del sesgo. Más allá del impacto directo en los consumidores, la presencia generalizada de este contenido plantea preguntas sobre la viabilidad a largo plazo del entrenamiento de modelos lingüísticos en grandes barridos de Internet.

Más IA en inglés que en lenguas latinas

Un estudio reciente de Creston Brooks, expertos en computación y lenguaje, lo han analizado a través de GPTZero, un detector de IA propietario, y Binoculares, una alternativa de código abierto, para establecer límites inferiores sobre la presencia de contenido generado por IA en páginas de la Wikipedia creadas recientemente. Ambos detectores revelan un aumento marcado del contenido generado por IA en páginas recientes en comparación con las de antes del lanzamiento de GPT-3.5. Con umbrales calibrados para conseguir una tasa de falsos positivos del 1% en artículos anteriores a la GPT-3.5, los detectores marcan más del 5% de los artículos de la Wikipedia en inglés de nueva creación como generados por IA, con porcentajes más bajos para los artículos en alemán, francés e italiano. Los artículos de la Wikipedia marcados suelen ser de menor calidad y a menudo son autopromocionales o parciales hacia un punto de vista específico sobre temas controvertidos.

Así pues, la IA se puede considerar un ayudante de escritura. E incluso han diseñado un flujo de trabajo LLM basado en la recuperación para escribir artículos parecidos a la Wikipedia y han recopilado perspectivas de editores experimentados de la Wikipedia sobre su uso. Además, la traducción habilitada por LLM puede reducir las barreras lingüísticas en los dominios del intercambio de información. No obstante, la facilidad creciente con que es posible generar contenido a escala para sobre-representar una perspectiva particular tiene consecuencias previsibles y peligrosas. Las personas son más propensas a creer afirmaciones que se repiten con frecuencia, ya que la familiaridad se confunde fácilmente con la validez. La confianza del consumidor es un determinante clavo de la fortaleza económica, y la confianza en la economía se basa en parte en la fortaleza que los individuos perciben la confianza de los otros. En la medida en que los resultados generados por IA muestran menos variabilidad que los textos generados por humanos, podemos esperar que los picos de polarización sigan aumentando.

La Wikipedia no niega la evidencia

Por otra parte, la misma plataforma no niega la evidencia de su uso: "La inteligencia artificial (IA) se utiliza en varios proyectos de la Wikipedia y Wikimedia. Puede estar directamente relacionada con la creación de contenido textual o en funciones de apoyo relacionadas con la evaluación de la calidad de los artículos, la adición de metadatos o la generación de imágenes. Como pasa con cualquier contenido generado por máquina, hay que ir con cuidado a la hora de utilizar la IA a gran escala o a la hora de aplicarla donde el consenso de la comunidad es tener más precaución". Y añaden: "Cuando se exploran técnicas y sistemas de IA, el consenso de la comunidad es preferir las decisiones humanas a los resultados generados por máquinas hasta que se comprendan mejor las implicaciones".

La explosión de interés por ChatGPT desde el 2022 ha provocado una mayor curiosidad por el uso de la IA generativa para ayudar a componer artículos de la Wikipedia. El estado del texto generado por máquina a partir de herramientas como ChatGPT se acepta generalmente como dominio público, de manera que los problemas de derechos de autor no son un obstáculo para el uso del texto generado desde un punto de vista legal.