O termo "papagaio estocástico" foi popularizado pelas pesquisadoras Emily Bender (1973-) e Timnit Gebru (1982-) para enfatizar que os LLMs (Grandes Modelos de Linguagem) não "entendem" a linguagem que utilizam. Eles reproduzem padrões aprendidos a partir de dados massivos, sem consciência ou intencionalidade. Quando um papagaio imita uma palavra como "Olá", não tem a intenção de cumprimentar alguém. É um comportamento automático, desencadeado por estímulos externos (ex.: presença de humanos) ou internos (ex.: tédio).
Em relação às IAs, o qualificativo "estocástico" refere-se ao seu funcionamento probabilístico: cada palavra é gerada com base em cálculos estatísticos, como um papagaio que repetiria aleatoriamente frases aprendidas sem compreender seu significado.
Um loop de retroalimentação perigoso se instalou na Internet: quanto mais visualizações um conteúdo atrai, mais receita ou notabilidade gera, e mais incentiva a produção de ainda mais conteúdo vazio. Os humanos, mais inteligentes que as máquinas, entenderam rapidamente essa dinâmica. Perceberam que podiam usar as IAs para automatizar a produção de conteúdo online (textos, imagens, vídeos).
Cada novo conteúdo gerado por IA atrai um pouco de atenção, o que encoraja a produção de cada vez mais conteúdo. Com o tempo, a quantidade total de conteúdo aumenta exponencialmente, mas a qualidade média entra em colapso. Os feeds estão saturados de conteúdo artificial, as informações reais se perdem no ruído e a confiança do público diminui.
O neologismo "merdificação" (do inglês "enshittification") é um termo crítico e sociológico usado para descrever um processo de degradação progressiva da qualidade do conteúdo online, em favor da quantidade, visibilidade e lucro imediato. A merdificação refere-se ao preenchimento massivo da web com conteúdos medíocres, vazios ou até enganosos, produzidos de forma automatizada ou oportunista para gerar tráfego, cliques ou receita publicitária.
Quanto mais cliques os conteúdos medíocres geram, mais são demandados pelos anunciantes, o que incentiva os usuários a produzirem ainda mais. O sistema se autoalimenta até a saturação ou o colapso da confiança global. Quando todos falam ao mesmo tempo para serem vistos, ninguém escuta e o conhecimento acaba se dissolvendo no ruído digital.
Quando a bolha estourar, não será apenas um colapso econômico ou midiático, mas um desmoronamento do valor informativo global, com consequências profundas para plataformas, criadores e público. Resultado: Todos vão perder.
A Internet está se transformando gradualmente em um imenso lixão informacional, onde o ruído supera o sinal. A qualidade e a veracidade desaparecem diante da produção em massa e da competição por audiência.
As plataformas digitais (Amazon, Spotify, YouTube, TikTok, etc.) promovem sistematicamente conteúdos "engajadores" gerados por IA, por seu potencial de audiência massiva e receita publicitária. No entanto, essa estratégia revela uma paradoxo destrutivo: quanto mais os algoritmos favorecem essas produções, mais desvalorizam todo o ecossistema, criando uma bolha informacional onde a quantidade sufoca a qualidade. Quanto mais conteúdo de IA existe, menos valor cada peça tem.
A corrida por modelos cada vez mais poderosos exige recursos colossais, inacessíveis para a maioria dos atores. Os investidores correm o risco de descobrir que o retorno sobre o investimento não será alcançado.
A saturação já foi atingida. O Google é o exemplo mais visível: seus resultados de busca, antes classificados por relevância e confiabilidade das fontes, agora estão saturados de conteúdos otimizados para SEO, mas sem valor. Páginas produzidas automaticamente por fazendas de conteúdo online ou modelos de linguagem inundam os índices dos motores de busca, tornando a busca por informações confiáveis cada vez mais trabalhosa. Os algoritmos dos motores de busca têm dificuldade em separar o relevante do irrelevante e, sem querer, amplificam esse ruído digital. A relevância é substituída pela viralidade, e o conhecimento se dissolve em uma massa de conteúdos artificialmente vazios. Os motores de busca, antes símbolos de acesso ao conhecimento, estão se tornando um lixão digital, onde os usuários não conseguem mais distinguir o sinal do ruído.
Sem matéria-prima (obras humanas), as IAs não poderão mais melhorar. Não podemos continuar alimentando as IAs com sua própria comida digerida mil vezes.
Leia o artigo sobre: O que é "Self-Consuming Generative Models Go Mad"?
| Tipo de conteúdo | Exemplo | Plataforma / Mecanismo | Problema |
|---|---|---|---|
| Livros automatizados | - Romances ou guias gerados por IA, cheios de repetições ou informações triviais - Falsificações reembaladas de livros existentes | Amazon Kindle Direct Publishing, Lulu, Apple Books, Kobo Writing Life, Google Play Books, JD.com, Dangdang, WeChat Reading | Enorme volume de publicações vazias, absurdas ou ilegíveis, produzidas automaticamente por softwares, sem revisão humana ou autor. |
| Artigos de blog ou notícias | - Artigos ingênuos gerados automaticamente para otimizar a audiência | Google Search / Adsense, Facebook Instant Articles, Apple News, LinkedIn, Medium, WeChat Official Accounts, Toutiao, Baidu Baijia, Weibo | Degradação da qualidade da informação. Multiplicação de conteúdos superficiais para captar tráfego. Metade dos sites de notícias gerados por IA contém informações falsas. |
| Imagens | - Ilustrações estereotipadas em redes sociais para solicitar cliques | ArtStation, Shutterstock, Canva, Getty Images, Adobe Stock, Weibo, Xiaohongshu, Douyin, Baidu Tieba | Saturação de bancos de imagens sem valor original. Diminuição da criatividade humana. Deepfakes são indetectáveis para 70% dos internautas. |
| Vídeos | - Clipes curtos sensacionalistas - Animações ou deepfakes gerados automaticamente | YouTube, TikTok, Instagram, Facebook Reels, Douyin, Kuaishou, Bilibili, WeChat Channels | Conteúdo vazio projetado para atrair atenção. Incitação ao clique de maneira exagerada ou enganosa. Maior exposição à desinformação. Monetização por meio de anúncios. |
| Música | - Playlists completas de faixas geradas por IA - Catálogos preenchidos com criações sintéticas | Spotify, SoundCloud, Apple Music, YouTube Music, QQ Music, NetEase Cloud Music, Kugou, Kuwo | Remuneração por obras sem criatividade real. Saturação do mercado musical. Artistas virtuais geram milhões de streams. |
| Conteúdos virais chamativos | - Imagens e textos humorísticos gerados massivamente - Maximização de curtidas por contas falsas | Facebook, Instagram, Reddit, X (Twitter), WeChat Moments, Douyin, Weibo, Xiaohongshu | Produção em massa para captar atenção. Diluição do conteúdo original. Fácil de copiar e adaptar por outros usuários. |
| Design de produtos e modelos 3D | - Designs de objetos, móveis, joias gerados em massa | Etsy, Thingiverse, Cults3D, MyMiniFactory, Taobao, Tmall, JD.com, 1688.com | Inundação do mercado com designs não funcionais. Desvalorização do trabalho dos designers. |
| Tutoriais | - Tutoriais atraentes, mas errados, gerados automaticamente | Stack Overflow, Quora, Reddit, YouTube, Zhihu, Baidu Zhidao, Bilibili, CSDN | Poluição das bases de conhecimento. Propagação de erros em larga escala. Perda de confiança nas fontes de informação. |
| Aplicativos e código | - Aplicativos básicos - Scripts copiados e colados vulneráveis - Pacotes de código aberto duvidosos | GitHub, GitLab, App Store, Google Play Store, Gitee, Coding.net, Lojas de aplicativos chinesas (Huawei, Xiaomi, Tencent) | Aumento dos riscos de segurança. Proliferação de código não otimizado ou malicioso. |
Na pesquisa, vários sinais indicam uma contaminação progressiva do corpus científico por conteúdos sintéticos ou automatizados, o que pode comprometer a confiabilidade das fontes e a cadeia de referência.
Fábricas de artigos produzem milhares de publicações pseudocientíficas geradas ou reformuladas por IA, às vezes até aceitas em revistas. Seu conteúdo geralmente não tem experimentação real, mas é otimizado para parecer "científico" (formalismo superficial, citações fabricadas, metodologias vagas).
Pesquisadores apressados ou mal treinados reutilizam formulações geradas por IA (introduções, resumos, revisões de literatura) e as inserem em seus trabalhos. Isso introduz erros semânticos sutis e aproximações não detectadas, que às vezes passam pelo filtro de revisão e depois se propagam na literatura.
Plataformas como Google Scholar, ResearchGate ou Semantic Scholar agora indexam artigos gerados automaticamente. Esses textos poluem os algoritmos de recomendação e os motores de busca acadêmicos, distorcendo as métricas de relevância e aumentando o risco de citações infundadas.
Quando uma IA reformula um trecho de vários artigos sem citar corretamente os autores, a cadeia de referência é quebrada. O leitor acredita estar lendo uma síntese confiável, quando na verdade é uma mistura de fontes indiferenciadas, o que prejudica a transparência científica e complica a verificação dos fatos.