“随机鹦鹉”这一术语由研究人员艾米莉·本德(1973年出生)和蒂姆尼特·格布鲁(1982年出生)推广,旨在强调大型语言模型(LLMs)并不“理解”它们所使用的语言。它们只是复现从海量数据中习得的模式,既无意识也无意图。当一只鹦鹉模仿“你好”这样的词语时,它并非有意向人打招呼。这是一种自动行为,由外部刺激(如人类在场)或内部刺激(如无聊)触发。
关于人工智能,“随机”一词指的是其概率性运作方式:每个词都是基于统计计算生成的,就像鹦鹉随机重复学到的短语,却不理解其含义。
互联网上已形成一种危险的反馈循环:内容越吸引眼球,就越能带来收益或知名度,进而催生更多肤浅内容的产出。 比机器更聪明的人类很快看透了这一机制。 他们意识到,可以利用人工智能自动化生产网络内容(文字、图像、视频)。
每一段新生成的AI内容都会吸引一定关注,进而刺激更多内容的产出。随着时间的推移,内容总量呈指数级增长,但平均质量却急剧下降。信息流被人工内容充斥,真实信息淹没在噪音中,公众信任度也随之降低。
“劣质化”(enshittification)是一个批判性社会学新词,用于描述网络内容质量逐步退化、转而追求数量、曝光度和短期利润的现象。劣质化指网络被大量平庸、肤浅甚至具有误导性的内容充斥,这些内容通过自动化或投机方式生产,旨在获取流量、点击量或广告收入。
越是平庸的内容能带来点击量,广告商就越追捧,从而刺激用户生产更多此类内容。 系统自我循环直至饱和,或全球信任崩塌。 当所有人同时发声以求被看见时,便无人倾听,知识终将消解于数字噪音之中。
当泡沫破裂时,这不仅是经济或媒体的崩溃,更是全球信息价值的崩塌,将对平台、创作者和公众产生深远影响。结果将是:所有人都会输。
互联网正逐渐变成一个巨大的信息垃圾场,噪音淹没了信号。在批量生产和争夺受众的过程中,质量与真实性逐渐消失。
数字平台(亚马逊、Spotify、YouTube、TikTok等)为追求庞大的受众潜力和广告收入,系统性地推广AI生成的"高互动性"内容。然而,这种策略暴露了一个破坏性悖论:算法越是青睐这类作品,就越会贬损整个生态系统的价值,形成信息泡沫——数量压制质量。AI内容越多,每份内容的价值就越低。
对更强大模型的竞赛需要巨额资源,这已让大多数参与者望而却步。投资者可能发现投资回报难以实现。
饱和状态已经到来。 谷歌是最明显的例子:其搜索结果曾以相关性和来源可靠性排序,如今却充斥着经过搜索引擎优化但毫无价值的内容。 由在线内容农场或语言模型自动生成的页面淹没了搜索引擎索引,使得寻找可靠信息愈发艰难。搜索引擎算法难以区分相关与无关内容,反而无意中放大了这种数字噪音。 相关性被病毒式传播取代,知识消解在大量空洞的人工内容中。 搜索引擎,曾经是获取知识的象征,正在沦为数字垃圾场——用户再也无法分辨信号与噪音。
没有原材料(人类作品),人工智能将无法再进步。我们不能继续用经过千次消化后的自身产物来喂养AI。阅读文章:什么是自消耗生成模型走向疯狂?
| 内容类型 | 示例 | 平台/机制 | 问题 |
|---|---|---|---|
| 自动书籍 | - 由AI生成的小说或指南,内容充满重复或琐碎信息 - 对现有书籍进行重新包装的盗版 | 亚马逊Kindle直接出版、Lulu、Apple Books、Kobo写作人生、Google Play图书、京东、当当、微信读书 | 大量由软件自动生成、未经人工审核或无作者的空洞、荒谬或不可读的出版物。 |
| 博客文章或新闻 | 为优化受众而自动生成的幼稚文章 | 谷歌搜索/Adsense、Facebook即时文章、苹果新闻、领英、Medium、微信公众号、今日头条、百度百家、微博 | 信息质量下降。浅薄内容泛滥以吸引流量。半数AI生成的新闻网站包含虚假信息。 |
| 图像 | 社交媒体上为博取点击量而使用的刻板印象插图 | ArtStation、Shutterstock、Canva、Getty Images、Adobe Stock、微博、小红书、抖音、百度贴吧 | 图像库饱和,缺乏原创价值。人类创造力衰退。70%的互联网用户无法识别深度伪造内容。 |
| 视频 | - 短标题党视频 - 自动生成的动画或深度伪造内容 | YouTube、TikTok、Instagram、Facebook Reels、抖音、快手、哔哩哔哩、微信视频号 | 空泛内容以吸引眼球。夸大或误导性的标题党。增加虚假信息的曝光。通过广告实现盈利。 |
| 音乐 | - 人工智能生成曲目的完整播放列表 - 充满合成创作的目录 | Spotify、SoundCloud、Apple Music、YouTube Music、QQ音乐、网易云音乐、酷狗、酷我 | 缺乏真正创意的作品获得报酬。音乐市场趋于饱和。虚拟艺人创造了数百万的播放量。 |
| 病毒式钩子内容 | - 大规模生成的幽默图片和文字 - 利用虚假账号最大化点赞数 | 脸书、Instagram、红迪、X(推特)、微信朋友圈、抖音、微博、小红书 | 大规模生产以吸引注意力。原始内容被稀释。容易被其他用户复制和改编。 |
| 产品设计与3D模型 | - 批量生成的物品、家具、珠宝设计 | Etsy、Thingiverse、Cults3D、MyMiniFactory、淘宝、天猫、京东、1688.com | 市场上充斥着非功能性设计。设计师工作的价值被贬低。 |
| 教程 | 自动生成的教程虽具吸引力但存在错误 | Stack Overflow、Quora、Reddit、YouTube、知乎、百度知道、Bilibili、CSDN | 知识库的污染。错误的大规模传播。对信息来源信任的丧失。 |
| 应用与代码 | - 基础应用 - 复制粘贴的脆弱脚本 - 可疑的开源软件包 | GitHub、GitLab、App Store、Google Play商店、Gitee、Coding.net、中国应用商店(华为、小米、腾讯) | 安全风险增加。未优化或恶意代码的扩散。 |
在研究中,多个迹象表明科学语料库正逐渐受到合成或自动化内容的污染,这可能影响来源的可靠性及引用链条。
论文工厂生产出数千篇由人工智能生成或改写的伪科学出版物,有时甚至被期刊接收。这些内容往往缺乏真实实验,但经过优化以显得"科学"(表面形式主义、捏造引用、模糊方法论)。
仓促或训练不足的研究人员会重复使用AI生成的表述(引言、摘要、文献综述)并将其插入自己的工作中。这引入了微妙的语义错误和未被察觉的近似表述,有时能通过审稿环节,随后在文献中传播。
像Google Scholar、ResearchGate或Semantic Scholar这样的平台现在会自动索引由机器生成的论文。这些文本污染了推荐算法和学术搜索引擎,扭曲了相关性指标,并增加了无根据引用的风险。
当人工智能在未正确引用作者的情况下,对多篇论文的片段进行改写时,引用链便断裂了。读者以为自己读到的是可靠的综合论述,但实际上却是未经区分的来源混合体,这损害了科学透明度,并使事实核查变得更加复杂。