El término "loro estocástico" fue popularizado por las investigadoras Emily Bender (1973-) y Timnit Gebru (1982-) para subrayar que los LLM (Modelos de Lenguaje Grande) no "entienden" el lenguaje que utilizan. Reproducen patrones aprendidos a partir de datos masivos, sin conciencia ni intencionalidad. Cuando un loro imita una palabra como "Hola", no tiene la intención de saludar a alguien. Es un comportamiento automático, desencadenado por estímulos externos (por ejemplo, la presencia de humanos) o internos (por ejemplo, el aburrimiento).
En cuanto a las IA, el calificativo "estocástico" se refiere a su funcionamiento probabilístico: cada palabra se genera en función de cálculos estadísticos, como un loro que repite al azar frases aprendidas sin captar su significado.
Un bucle de retroalimentación peligroso se ha instalado en Internet: cuanto más vistas atrae un contenido, más ingresos o notoriedad genera, y más incita a producir aún más contenido vacío. Los humanos, más inteligentes que las máquinas, comprendieron rápidamente esta dinámica. Se dieron cuenta de que podían utilizar las IA para automatizar la producción de contenidos en línea (textos, imágenes, videos).
Cada nuevo contenido generado por IA atrae un poco de atención, lo que alienta a producir cada vez más contenido. Con el tiempo, la cantidad total de contenido aumenta de forma exponencial, pero la calidad media se derrumba. Los flujos están saturados de contenidos artificiales, la información real se pierde en el ruido, y la confianza del público disminuye.
El neologismo "ensuciamiento" (del inglés "enshittification") es un término crítico y sociológico utilizado para describir un proceso de degradación progresiva de la calidad de los contenidos en línea, en favor de la cantidad, la visibilidad y el beneficio inmediato. El ensuciamiento se refiere al llenado masivo de la web con contenidos mediocres, vacíos o incluso engañosos, producidos de manera automatizada u oportunista para generar tráfico, clics o ingresos publicitarios.
Cuanto más clics generan los contenidos mediocres, más son demandados por los anunciantes, lo que incita a los usuarios a producir aún más. El sistema se autoalimenta hasta la saturación o el colapso de la confianza global. Cuando todos hablan al mismo tiempo para ser vistos, nadie escucha, y el conocimiento termina disueltose en el ruido digital.
Cuando la burbuja estalle, no será solo un colapso económico o mediático, sino un derrumbe del valor informativo global, con consecuencias profundas para las plataformas, los creadores y el público. Resultado: Todos saldrán perdiendo.
Internet se transforma poco a poco en un inmenso vertedero informativo donde el ruido supera a la señal. La calidad y la veracidad se desvanecen frente a la producción en masa y la competencia por la audiencia.
Las plataformas digitales (Amazon, Spotify, YouTube, TikTok, etc.) promueven sistemáticamente los contenidos "enganchadores" generados por IA, por su potencial de audiencia masiva y de ingresos publicitarios. Sin embargo, esta estrategia revela una paradoja destructiva: cuanto más los algoritmos favorecen estas producciones, más devalúan todo el ecosistema, creando una burbuja informativa donde la cantidad ahoga a la calidad. Cuanto más contenido de IA hay, menos valor tiene cada pieza.
La carrera por modelos cada vez más potentes exige recursos colosales, inaccesibles para la mayoría de los actores. Los inversores corren el riesgo de descubrir que los retornos de inversión no están a la altura.
La saturación ya se ha alcanzado. Google es el ejemplo más visible: sus resultados de búsqueda, antes jerarquizados por relevancia y fiabilidad de las fuentes, ahora están saturados de contenidos optimizados para el SEO pero sin valor. Las páginas producidas automáticamente por granjas de contenido en línea o modelos de lenguaje inundan los índices de los motores de búsqueda, haciendo que la búsqueda de información confiable sea cada vez más laboriosa. Los algoritmos de los motores de búsqueda tienen dificultades para separar lo relevante de lo irrelevante y, sin querer, amplifican este ruido digital. La relevancia es reemplazada por la viralidad, y el conocimiento se disuelve en una masa de contenidos artificialmente vacíos. Los motores de búsqueda, antes símbolos de acceso al conocimiento, se convierten en un vertedero digital, donde los usuarios ya no distinguen la señal del ruido.
Sin materia prima (obras humanas), las IA ya no podrán mejorar. No podemos seguir alimentando a las IA con su propia comida digerida mil veces.
Leer el artículo sobre: ¿Qué es el "Self-Consuming Generative Models Go Mad"?
| Tipo de contenido | Ejemplo | Plataforma / Mecanismo | Problema |
|---|---|---|---|
| Libros automatizados | - Novelas o guías generadas por IA, llenas de repeticiones o información trivial - Falsificaciones reempaquetadas de libros existentes | Amazon Kindle Direct Publishing, Lulu, Apple Books, Kobo Writing Life, Google Play Books, JD.com, Dangdang, WeChat Reading | Enorme volumen de publicaciones vacías, absurdas o ilegibles, producidas automáticamente por software, sin revisión humana ni autor. |
| Artículos de blog o noticias | - Artículos ingenuos generados automáticamente para optimizar la audiencia | Google Search / Adsense, Facebook Instant Articles, Apple News, LinkedIn, Medium, WeChat Official Accounts, Toutiao, Baidu Baijia, Weibo | Degradación de la calidad de la información. Multiplicación de contenidos superficiales para captar tráfico. La mitad de los sitios de noticias generados por IA contienen información falsa. |
| Imágenes | - Ilustraciones estereotipadas en redes sociales para solicitar clics | ArtStation, Shutterstock, Canva, Getty Images, Adobe Stock, Weibo, Xiaohongshu, Douyin, Baidu Tieba | Saturación de bancos de imágenes sin valor original. Disminución de la creatividad humana. Los deepfakes son indetectables para el 70% de los internautas. |
| Vídeos | - Clips cortos sensacionalistas - Animaciones o deepfakes generados automáticamente | YouTube, TikTok, Instagram, Facebook Reels, Douyin, Kuaishou, Bilibili, WeChat Channels | Contenido vacío diseñado para atraer atención. Incitación al clic de manera exagerada o engañosa. Mayor exposición a la desinformación. Monetización a través de publicidad. |
| Música | - Listas de reproducción completas de pistas generadas por IA - Catálogos llenos de creaciones sintéticas | Spotify, SoundCloud, Apple Music, YouTube Music, QQ Music, NetEase Cloud Music, Kugou, Kuwo | Remuneración por obras sin verdadera creatividad. Saturación del mercado musical. Artistas virtuales generan millones de reproducciones. |
| Contenidos virales llamativos | - Imágenes y textos humorísticos generados masivamente - Maximización de "me gusta" con cuentas falsas | Facebook, Instagram, Reddit, X (Twitter), WeChat Moments, Douyin, Weibo, Xiaohongshu | Producción masiva para captar atención. Dilución del contenido original. Fácilmente copiable y adaptable por otros usuarios. |
| Diseño de productos y modelos 3D | - Diseños de objetos, muebles, joyas generados en masa | Etsy, Thingiverse, Cults3D, MyMiniFactory, Taobao, Tmall, JD.com, 1688.com | Inundación del mercado con diseños no funcionales. Devaluación del trabajo de los diseñadores. |
| Tutoriales | - Tutoriales atractivos pero erróneos generados automáticamente | Stack Overflow, Quora, Reddit, YouTube, Zhihu, Baidu Zhidao, Bilibili, CSDN | Contaminación de las bases de conocimiento. Propagación de errores a gran escala. Pérdida de confianza en las fuentes de información. |
| Aplicaciones y código | - Aplicaciones básicas - Scripts copiados y pegados vulnerables - Paquetes de código abierto dudosos | GitHub, GitLab, App Store, Google Play Store, Gitee, Coding.net, Tiendas de aplicaciones chinas (Huawei, Xiaomi, Tencent) | Aumento de los riesgos de seguridad. Proliferación de código no optimizado o malicioso. |
En la investigación, varias señales indican una contaminación progresiva del corpus científico por contenidos sintéticos o automatizados, lo que puede alterar la fiabilidad de las fuentes y la cadena de referencia.
Fábricas de artículos producen miles de publicaciones pseudocientíficas generadas o reformuladas por IA, a veces incluso aceptadas en revistas. Su contenido suele carecer de experimentación real, pero está optimizado para parecer "científico" (formalismo superficial, citas fabricadas, metodologías vagas).
Investigadores apresurados o insuficientemente formados retoman formulaciones generadas por IA (introducciones, resúmenes, revisiones de literatura) e las insertan en sus trabajos. Esto introduce errores semánticos sutiles y aproximaciones no detectadas, que a veces pasan el filtro de revisión y luego se propagan en la literatura.
Plataformas como Google Scholar, ResearchGate o Semantic Scholar ahora indexan artículos generados automáticamente. Estos textos contaminan los algoritmos de recomendación y los motores de búsqueda académicos, distorsionando las métricas de relevancia y aumentando el riesgo de citas infundadas.
Cuando una IA reformula un extracto de varios artículos sin citar correctamente a los autores, se rompe la cadena de referencia. El lector cree que está leyendo una síntesis confiable, cuando en realidad es una mezcla de fuentes indiferenciadas, lo que perjudica la transparencia científica y complica la verificación de los hechos.