天文学
在 X 上关注我 在 Bluesky 上关注我 在 Pinterest 上关注我
中文 English Français Español Português 日本語 Deutsch
 
最后更新:2025年11月8日

人工智能:噪声制造者与即将破裂的认知泡沫

鹦鹉在电脑屏幕前,象征人工智能
这张图片展示了一只鹦鹉站在一个充满随机组合词汇的屏幕前。它形象地比喻了大型语言模型与鹦鹉的相似之处:如同鹦鹉一般,这些工具只是重复短语而不真正理解其含义,因此得名“随机鹦鹉”。来源:astronoo.com

随机鹦鹉

“随机鹦鹉”这一术语由研究人员艾米莉·本德(1973年出生)和蒂姆尼特·格布鲁(1982年出生)推广,旨在强调大型语言模型(LLMs)并不“理解”它们所使用的语言。它们只是复现从海量数据中习得的模式,既无意识也无意图。当一只鹦鹉模仿“你好”这样的词语时,它并非有意向人打招呼。这是一种自动行为,由外部刺激(如人类在场)或内部刺激(如无聊)触发。

关于人工智能,“随机”一词指的是其概率性运作方式:每个词都是基于统计计算生成的,就像鹦鹉随机重复学到的短语,却不理解其含义。

语言学徒:媒体炒作与内爆

互联网上已形成一种危险的反馈循环:内容越吸引眼球,就越能带来收益或知名度,进而催生更多肤浅内容的产出。 比机器更聪明的人类很快看透了这一机制。 他们意识到,可以利用人工智能自动化生产网络内容(文字、图像、视频)。

这个循环的引擎简单但强大

每一段新生成的AI内容都会吸引一定关注,进而刺激更多内容的产出。随着时间的推移,内容总量呈指数级增长,但平均质量却急剧下降。信息流被人工内容充斥,真实信息淹没在噪音中,公众信任度也随之降低。

互联网的“粪坑化”:数字文化的新批判概念

“劣质化”(enshittification)是一个批判性社会学新词,用于描述网络内容质量逐步退化、转而追求数量、曝光度和短期利润的现象。劣质化指网络被大量平庸、肤浅甚至具有误导性的内容充斥,这些内容通过自动化或投机方式生产,旨在获取流量、点击量或广告收入。

垃圾化:一个正反馈循环

越是平庸的内容能带来点击量,广告商就越追捧,从而刺激用户生产更多此类内容。 系统自我循环直至饱和,或全球信任崩塌。 当所有人同时发声以求被看见时,便无人倾听,知识终将消解于数字噪音之中。

当泡沫破裂时,这不仅是经济或媒体的崩溃,更是全球信息价值的崩塌,将对平台、创作者和公众产生深远影响。结果将是:所有人都会输。

系统为何濒临崩溃

当噪音淹没信号时

互联网正逐渐变成一个巨大的信息垃圾场,噪音淹没了信号。在批量生产和争夺受众的过程中,质量与真实性逐渐消失。

数字内容的贬值

数字平台(亚马逊、Spotify、YouTube、TikTok等)为追求庞大的受众潜力和广告收入,系统性地推广AI生成的"高互动性"内容。然而,这种策略暴露了一个破坏性悖论:算法越是青睐这类作品,就越会贬损整个生态系统的价值,形成信息泡沫——数量压制质量。AI内容越多,每份内容的价值就越低。

不可持续的技术竞赛

对更强大模型的竞赛需要巨额资源,这已让大多数参与者望而却步。投资者可能发现投资回报难以实现。

系统饱和

饱和状态已经到来。 谷歌是最明显的例子:其搜索结果曾以相关性和来源可靠性排序,如今却充斥着经过搜索引擎优化但毫无价值的内容。 由在线内容农场或语言模型自动生成的页面淹没了搜索引擎索引,使得寻找可靠信息愈发艰难。搜索引擎算法难以区分相关与无关内容,反而无意中放大了这种数字噪音。 相关性被病毒式传播取代,知识消解在大量空洞的人工内容中。 搜索引擎,曾经是获取知识的象征,正在沦为数字垃圾场——用户再也无法分辨信号与噪音。

人类原材料至关重要

没有原材料(人类作品),人工智能将无法再进步。我们不能继续用经过千次消化后的自身产物来喂养AI。阅读文章:什么是自消耗生成模型走向疯狂?

病毒式内容制作示例

AI生成内容生产的示例
内容类型示例平台/机制问题
自动书籍- 由AI生成的小说或指南,内容充满重复或琐碎信息 - 对现有书籍进行重新包装的盗版亚马逊Kindle直接出版、Lulu、Apple Books、Kobo写作人生、Google Play图书、京东、当当、微信读书大量由软件自动生成、未经人工审核或无作者的空洞、荒谬或不可读的出版物。
博客文章或新闻为优化受众而自动生成的幼稚文章谷歌搜索/Adsense、Facebook即时文章、苹果新闻、领英、Medium、微信公众号、今日头条、百度百家、微博信息质量下降。浅薄内容泛滥以吸引流量。半数AI生成的新闻网站包含虚假信息。
图像社交媒体上为博取点击量而使用的刻板印象插图ArtStation、Shutterstock、Canva、Getty Images、Adobe Stock、微博、小红书、抖音、百度贴吧图像库饱和,缺乏原创价值。人类创造力衰退。70%的互联网用户无法识别深度伪造内容。
视频- 短标题党视频 - 自动生成的动画或深度伪造内容YouTube、TikTok、Instagram、Facebook Reels、抖音、快手、哔哩哔哩、微信视频号空泛内容以吸引眼球。夸大或误导性的标题党。增加虚假信息的曝光。通过广告实现盈利。
音乐- 人工智能生成曲目的完整播放列表 - 充满合成创作的目录Spotify、SoundCloud、Apple Music、YouTube Music、QQ音乐、网易云音乐、酷狗、酷我缺乏真正创意的作品获得报酬。音乐市场趋于饱和。虚拟艺人创造了数百万的播放量。
病毒式钩子内容- 大规模生成的幽默图片和文字 - 利用虚假账号最大化点赞数脸书、Instagram、红迪、X(推特)、微信朋友圈、抖音、微博、小红书大规模生产以吸引注意力。原始内容被稀释。容易被其他用户复制和改编。
产品设计与3D模型- 批量生成的物品、家具、珠宝设计Etsy、Thingiverse、Cults3D、MyMiniFactory、淘宝、天猫、京东、1688.com市场上充斥着非功能性设计。设计师工作的价值被贬低。
教程自动生成的教程虽具吸引力但存在错误Stack Overflow、Quora、Reddit、YouTube、知乎、百度知道、Bilibili、CSDN知识库的污染。错误的大规模传播。对信息来源信任的丧失。
应用与代码- 基础应用 - 复制粘贴的脆弱脚本 - 可疑的开源软件包GitHub、GitLab、App Store、Google Play商店、Gitee、Coding.net、中国应用商店(华为、小米、腾讯)安全风险增加。未优化或恶意代码的扩散。

科学来源的污染已经开始

在研究中,多个迹象表明科学语料库正逐渐受到合成或自动化内容的污染,这可能影响来源的可靠性及引用链条。

“论文工厂”的泛滥

论文工厂生产出数千篇由人工智能生成或改写的伪科学出版物,有时甚至被期刊接收。这些内容往往缺乏真实实验,但经过优化以显得"科学"(表面形式主义、捏造引用、模糊方法论)。

合成文章的重复使用

仓促或训练不足的研究人员会重复使用AI生成的表述(引言、摘要、文献综述)并将其插入自己的工作中。这引入了微妙的语义错误和未被察觉的近似表述,有时能通过审稿环节,随后在文献中传播。

书目数据库的污染

像Google Scholar、ResearchGate或Semantic Scholar这样的平台现在会自动索引由机器生成的论文。这些文本污染了推荐算法和学术搜索引擎,扭曲了相关性指标,并增加了无根据引用的风险。

源可追溯性丢失

当人工智能在未正确引用作者的情况下,对多篇论文的片段进行改写时,引用链便断裂了。读者以为自己读到的是可靠的综合论述,但实际上却是未经区分的来源混合体,这损害了科学透明度,并使事实核查变得更加复杂。

本类别探索内容

AI工具:如何选择? AI工具:如何选择?
人工智能:噪声制造者与即将破裂的认知泡沫
人工智能:噪声制造者与即将破裂的认知泡沫
生成式人工智能 vs 通用人工智能:模仿的终点与意识的起点在哪里? 生成式人工智能 vs 通用人工智能:模仿的终点与意识的起点在哪里?
人工网络 vs 生物网络:两个系统,一种共同架构 人工网络 vs 生物网络:两个系统,一种共同架构
人脑与人工智能:相似与差异 人脑与人工智能:相似与差异
AlphaGo vs AlphaGo Zero:人工智能的一场革命 AlphaGo vs AlphaGo Zero:人工智能的一场革命
智能机器的下一步 智能机器的下一步
生命涌现的第一步 生命涌现的第一步
从生物神经元到形式神经元:大脑的简化 从生物神经元到形式神经元:大脑的简化
人工智能:巨人主义的爆炸 人工智能:巨人主义的爆炸
当AI模型用自己的数据训练时,它们会发疯! 当AI模型用自己的数据训练时,它们会发疯!
人工智能的涌现:智能的幻觉还是真正的智能? 人工智能的涌现:智能的幻觉还是真正的智能?
人工智能与自然语言 机器如何以类似人类的方式理解、解释和生成语言?
人工神经网络是如何工作的? 人工神经网络是如何工作的?