是的,人工智能似乎是一个涌现概念。2017年之前,AI模型的表现并不理想。但当模型规模(训练数据量和参数数量)充分扩大后,便发生了相变。人工神经元之间由此涌现出更复杂的交互,催生了如今被我们称为"智能"的精密认知能力——而这一切都源于极其简单的数学组件。
神经网络参数是AI模型的内部变量。这些参数会在从输入数据学习的过程中自动调整。例如,OpenAI的GPT-3模型拥有1750亿个参数。OpenAI的DALL-E模型拥有120亿个参数。谷歌的Gemini Ultra模型据称拥有5400亿个参数。
参数数量取决于网络的结构,即层数、每层神经元数量以及层间连接类型。参数数量由以下公式给出:P = (d+1)h + (h+1)o,其中d是输入神经元数量,h是隐藏层神经元数量,o是输出神经元数量。+1项对应偏置,这是每层添加的一个额外参数,用于避免人类自然倾向于某些结果。
参数数量影响神经网络的学习能力,从而决定模型的性能和行为。参数越多,系统越能产生正确且一致的结果。然而,这存在一个限度!当参数数量相对于可用数据量过大时,一种称为"过拟合"的现象会惩罚系统。若要增加神经网络的参数数量,就必须同时增加训练数据。这解释了为何运营商对我们数据的渴求永无止境。
在人工神经网络(ANNs)中,每个神经元对其输入进行加权求和计算,然后通过阈值激活函数确定输出,并将结果传递给下一层。正是从这一简单的数学过程中,涌现出了一种奇异性。网络仅预测句子中下一个词或下一个“词元”(单词片段)的出现。然而,尽管源于概率性过程,却由此生成了有序、合理且连贯的句子。
对于这位玩弄文字却不在意其含义的语言魔术师而言,真理的概念并不相关。该系统并不追求提供准确的答案,而是生成可能的句子。
换句话说,一个与我们的现实毫无关联、缺乏意义与知识、且无法区分"真"与"假"的系统,却能给出"智能"的回答。正是凭借其庞大的训练语料库,人工智能才得以营造出理解句子语境、作者意图及语言细微差别的假象。这种表现令人深感不安!!
像智能这样复杂而精妙的现象,如何在虚拟环境中涌现?
涌现概念的示例
在大爆炸之后不久,宇宙极其炽热且密度极高。在这种极端环境下,物质从纯粹的能量中诞生,遵循爱因斯坦的质能方程E=mc²。因此,原本不存在的夸克、电子和中微子等基本粒子,从原始宇宙中涌现出来。
生命是一种涌现现象;它源于构成它的更简单组分(如化学分子)之间的相互作用。然而,它对这些组分呈现出新的、不可还原的特性。从某种分子组织开始,生命便出现在一个此前并不存在它的环境中。
一个涌现概念源于更基础的概念,同时保持新颖且不可还原为后者。 换言之,新属性随涌现概念从先前并不存在的环境中显现。 这些新属性似乎是对特定环境物理条件的自然响应。
2017年之前的AI模型所使用的训练数据集远小于如今的数据集。它们远非完美;生成式AI的表现并不理想。
随着可用于学习的数据量增加,数据科学家们直观地增加了参数数量。从某个神奇的门槛开始,他们观察到结果显著提升。这一现象在2017年GPT-2模型(生成式预训练变换器2)中得以体现,该模型通过展示其生成人类质量文本的能力,标志着文本生成领域的转折点。
发生了什么?
2017年之前,模型规模(训练数据和神经架构)持续增长,但并未产生显著效果;性能表现糟糕且停滞不前。随后,当规模达到某个临界点时,突然出现了相变。换言之,由数据多样性和参数引发的系统状态发生了物理变化。神经元之间突然涌现出更丰富、更深入、更复杂的交互。
这一奇迹般进化中引人注目的事实是,更复杂的认知能力的出现,如今在我们看来显得“智能”。
科学家们难以解释这种相变现象。然而,一种"智能"确实从数据、算法、模型和参数等极其简单的组件的相互作用中,以数学方式涌现了出来!!
从机器中涌现出的这种现象,对我们理解智能本身的本质有何启示?
机器学习是一个非线性过程,意味着微小的变化可能导致模型行为发生显著改变。目前,我们尚不清楚模型如何做出决策,这使得预测其未来行为变得困难。
人工智能领域正在飞速发展,新技术和架构不断涌现。随着模型复杂度的提升,可能还会涌现出其他意想不到的特性,例如创造力、艺术性、对现实的理解,甚至意识。
人工智能最初被设计用于模仿人脑的能力。为此,它从生物神经元模型中汲取灵感,创建了人工神经网络。未来,人工智能与大脑研究很可能会相互促进。通过使用人工智能并让其自主进化,它有可能为我们提供解开人脑奥秘的钥匙。
“机遇是发明家之神。”——皮埃尔·达克(1893-1975),法国幽默作家。
参数是AI模型的内部变量,在学习过程中自动调整。它们包括突触权重和偏置。其数量取决于网络结构(层数和神经元数量)。例如,GPT-3拥有1750亿个参数。参数越多(在数据充足的情况下),系统就越能产生正确且一致的结果。
神经网络仅根据统计过程预测下一个最可能的词(或“标记”)。它并不寻求提供“真实”的答案,而是生成可能的句子,与我们的现实毫无关联,也不区分真假。正是凭借其庞大的训练语料库,它才给人以理解语境、意图和细微差别的印象,尽管它本身缺乏意义和知识。
2017年之前,扩大模型规模(数据和参数)对性能的提升微乎其微。然而,随着GPT-2模型的出现,突然达到了一个临界阈值,引发了相变(系统状态的物理变化)。神经元之间出现了更丰富、更复杂的相互作用,催生了高级认知能力。科学家至今仍难以完全解释这一现象。