Le terme "perroquet stochastique" a été popularisé par les chercheuses Emily Bender (1973-) et Timnit Gebru (1982-) pour souligner que les LLM (Grand modèle de langage) ne "comprennent" pas le langage qu'ils utilisent. Ils reproduisent des motifs appris à partir de données massives, sans conscience ni intentionnalité. Lorsqu’un perroquet imite un mot comme "Bonjour", il n’a pas l’intention de saluer quelqu’un. C’est un comportement automatique, déclenché par des stimuli externes (ex : la présence d’humains) ou internes (ex : l’ennui).
Concernant les IA, le qualificatif "stochastique" fait référence à leur fonctionnement probabiliste : chaque mot est généré en fonction de calculs statistiques, comme un perroquet qui répéterait au hasard, des phrases apprises sans en saisir le sens.
Une boucle de rétroaction dangereuse s'est installée sur Internet : plus un contenu attire de vues, plus il génère de revenus ou de notoriété, et plus il incite à produire encore plus de contenu creux. Les humains, plus intelligents que les machines, ont très vite compris cette dynamique. Ils ont rapidement réalisé qu'ils pouvaient utiliser les IA pour automatiser la production de contenus en ligne (textes, images, vidéos).
Chaque nouveau contenu généré par IA attire un peu d'attention, ce qui encourage à produire de plus en plus de contenus. Au fil du temps, la quantité totale de contenu augmente de façon exponentielle, mais la qualité moyenne s'effondre. Les flux sont saturés de contenus artificiels, les véritables informations se perdent dans le bruit, et la confiance du public diminue.
Le néologisme "merdification" de l'anglais "enshittification" est un terme critique et sociologique employé pour décrire un processus de dégradation progressive de la qualité des contenus en ligne, au profit de la quantité, de la visibilité et du profit immédiat. La merdification désigne le remplissage massif du web par des contenus médiocres, creux, voire mensongers, produits de manière automatisée ou opportuniste pour générer du trafic, des clics, ou des revenus publicitaires.
Plus les contenus médiocres génèrent de clics, plus ils sont demandés par les annonceurs, ce qui incite les utilisateurs à en produire davantage. Le système s’auto-alimente, jusqu’à saturation, ou à l’effondrement de la confiance globale. Lorsque tout le monde parle en même temps pour être vu, plus personne n’écoute, et le savoir finit par se dissoudre dans le vacarme numérique.
Quand la bulle éclatera, ce ne sera pas seulement un krach économique ou médiatique, mais un effondrement de la valeur informative globale, avec des conséquences profondes pour les plateformes, les créateurs et le public. Résultat : Tout le monde va y perdre.
Internet se transforme peu à peu en une immense décharge informationnelle où le bruit l’emporte sur le signal. La qualité et la véracité s’effacent devant la production de masse et la compétition pour l’audience.
Les plateformes numériques (Amazon, Spotify, YouTube, TikTok, etc.) mettent systématiquement en avant les contenus qui "accrochent" générés par IA, pour leur potentiel d’audience massive et de revenus publicitaires. Pourtant, cette stratégie révèle un paradoxe destructeur : plus les algorithmes favorisent ces productions, plus elles dévaluent l’écosystème entier, créant une bulle informationnelle où la quantité étouffe la qualité. Plus il y a de contenu IA, moins chaque pièce a de valeur.
La course aux modèles toujours plus puissants exige des ressources colossales, devenues inaccessibles pour la plupart des acteurs. Les investisseurs risquent de constater que les retours sur investissement ne sont pas au rendez-vous.
La saturation est déjà atteinte. Google en est l’exemple le plus visible : ses résultats de recherche, autrefois hiérarchisés par la pertinence et la fiabilité des sources, sont désormais saturés de contenus optimisés pour le référencement mais sans valeur.
Les pages produites automatiquement par des fermes de contenus en ligne ou des modèles de langage inondent les index des moteurs, rendant la recherche d’informations fiables de plus en plus laborieuse. Les algorithmes des moteurs peinent à trier le pertinent de l’inutile et amplifient involontairement ce bruit numérique.
La pertinence est remplacée par la viralité, et la connaissance se dissout dans une masse de contenus artificiellement creux. les moteurs de recherche autrefois symbole d’accès au savoir devient une décharge numérique, où les utilisateurs ne distinguent plus, le signal du bruit.
Sans matière première (œuvres humaines), les IA ne pourront plus s’améliorer. On ne peut pas continuer à nourrir les IA avec leur propre nourriture mille fois digérée.
Lire l'article sur : Qu'est-ce que le Self-Consuming Generative Models Go Mad ?
| Type de contenu | Exemple | Plateforme / Mécanisme | Problème |
|---|---|---|---|
| Livres automatisés | - Romans ou guides générés par IA, remplis de répétitions ou d'informations triviales - Contrefaçons reconditionnées de livres existants | Amazon Kindle Direct Publishing, Lulu, Apple Books, Kobo Writing Life, Google Play Books, JD.com, Dangdang, WeChat Reading | Volume énorme de publications creuses, absurdes ou illisibles, produites automatiquement par des logiciels, sans relecture humaine et sans auteur. |
| Articles de blog ou news | - Articles naïfs générés automatiquement pour optimiser l'audience | Google Search / Adsense, Facebook Instant Articles, Apple News, LinkedIn, Medium, WeChat Official Accounts, Toutiao, Baidu Baijia, Weibo | Dégradation de la qualité de l'information. Multiplication de contenus superficiels pour capter le trafic. La moitié des sites d'actualités générés par IA contiennent de fausses informations. |
| Images | - Illustrations stéréotypées sur les réseaux sociaux pour solliciter le clic | ArtStation, Shutterstock, Canva, Getty Images, Adobe Stock, Weibo, Xiaohongshu, Douyin, Baidu Tieba | Saturation des banques d'images sans valeur originale. Diminution de la créativité humaine. Les deepfakes deviennent impossibles à détecter pour 70 % des internautes. |
| Vidéos | - Clips courts racoleurs - Animations ou deepfakes générés automatiquement | YouTube, TikTok, Instagram, Facebook Reels, Douyin, Kuaishou, Bilibili, WeChat Channels | Contenu vide conçu pour attirer l'attention. Incitation au clic de manière exagérée ou trompeuse. Exposition accrue à la désinformation. Monétisation via publicités. |
| Musique | - Playlists complètes de morceaux générés par IA - Catalogues remplis avec des créations synthétiques | Spotify, SoundCloud, Apple Music, YouTube Music, QQ Music, NetEase Cloud Music, Kugou, Kuwo | Rémunération pour des œuvres sans véritable créativité. Saturation du marché musical. Des artistes virtuels génèrent des millions de streams. |
| Contenus accrocheurs viraux | - Images et textes humoristiques générés massivement - Maximisation des likes par des faux comptes | Facebook, Instagram, Reddit, X (Twitter), WeChat Moments, Douyin, Weibo, Xiaohongshu | Production de masse pour capter l'attention. Dilution du contenu original. Facilement copiable et adaptable par d'autres internautes. |
| Design de produits et modèles 3D | - Designs d'objets, de meubles, de bijoux générés en masse | Etsy, Thingiverse, Cults3D, MyMiniFactory, Taobao, Tmall, JD.com, 1688.com | Inondation du marché avec des designs non fonctionnels. Dévalorisation du travail des designers. |
| Tutoriels | - Tutoriels séduisants mais erronés générés automatiquement | Stack Overflow, Quora, Reddit, YouTube, Zhihu, Baidu Zhidao, Bilibili, CSDN | Pollution des bases de connaissances. Propagation d'erreurs à grande échelle. Perte de confiance dans les sources d'information. |
| Applications et code | - Applications basiques - Scripts copiés-collés vulnérables - Packages open source douteux | GitHub, GitLab, App Store, Google Play Store, Gitee, Coding.net, App stores chinois (Huawei, Xiaomi, Tencent) | Augmentation des risques de sécurité. Prolifération de code non optimisé ou malveillant. |
Dans la recherche, plusieurs signes indiquent une contamination progressive du corpus scientifique par des contenus synthétiques ou automatisés, pouvant altérer la fiabilité des sources et la chaîne de référence.
Des usines à articles produisent des milliers de publications pseudo-scientifiques générées ou reformulées par IA, parfois même acceptées dans des revues. Leur contenu est souvent sans expérimentation réelle, mais optimisé pour paraître « scientifique » (formalisme superficiel, citations fabriquées, méthodologies vagues).
Des chercheurs pressés, ou insuffisamment formés, reprennent des formulations générées par IA (introductions, résumés, revues de littérature) et les insèrent dans leurs travaux. Cela introduit des erreurs sémantiques subtiles et des approximations non détectées, qui passent parfois le filtre de relecture et se propagent ensuite dans la littérature.
Des plateformes comme Google Scholar, ResearchGate ou Semantic Scholar indexent désormais des papiers générés automatiquement. Ces textes polluent les algorithmes de recommandation et les moteurs de recherche académiques, faussant les métriques de pertinence et augmentant le risque de citations non fondées.
Quand une IA reformule un extrait de plusieurs papiers sans citer correctement les auteurs, la chaîne de référence est brisée. Le lecteur croit lire une synthèse fiable, alors qu’il s’agit d’un mélange de sources indifférenciées, ce qui nuit à la transparence scientifique et complique la vérification des faits.