天文学
在 X 上关注我 在 Bluesky 上关注我 在 Pinterest 上关注我
中文 English Français Español Português 日本語 Deutsch
 
最后更新:2023年11月7日

人工神经网络:深度学习与反向传播

人工神经网络
人工神经网络由一系列相互连接的神经元层组成,每一层从前一层的输出中获取输入。 在人工神经网络中,每层的神经元数量可达数万个,层数可达数百层。图片来源:astronoo.com

什么是人工神经网络?

人工神经网络是一种由数学处理单元(人工神经元)组成的计算机系统,这些单元按相互连接的层次组织起来。受人类大脑启发,它通过调整“突触权重”从数据中学习,从而执行图像识别或语言处理等任务,而无需对所有规则进行显式编程。

人工智能(AI)的目的

要理解人工神经网络的工作原理,首先需要掌握人工智能(AI)的含义。 人工智能涉及创建能够无需人工干预自动执行任务的计算机系统,同时具备学习、适应、改进、交流,尤其是决策的能力。 从这个意义上说,人工智能旨在复制人类智能的某些方面。

什么是人类智能?

大脑功能的定义与组织

智能的定义极具争议,但此处我们关注的是由大脑控制的功能含义。无论是行走这类机械性功能,还是决策这类认知性功能,其运作架构在我们大脑各区域中始终一致。所有功能均具有同等重要性,无高低贵贱之分。它们都通过由数十亿相互连接的神经元构成的庞大网络,以同等复杂的计算过程完成信息交换。信息通过电信号和化学信号进行传递。

神经元之间的通信

在人脑中,神经元之间的通信过程如下:- 当神经元细胞膜上启动的电信号达到临界阈值时,会触发一个短暂的生物电脉冲,称为"动作电位"。动作电位沿轴突传递至神经元的突触处。- 在突触(神经元之间的接触点)处,动作电位会触发释放称为"神经递质"的化学分子。- 神经递质随后与突触后神经元(接收信息的神经元)膜上的受体结合。这种化学结合会引发突触后神经元的电反应。- 突触后神经元整合来自发射神经元的所有输入信号,若达到临界阈值,则产生自身的动作电位,并沿其轴突传播,从而在网络中继续传递信息。

神经递质的作用

根据释放的神经递质类型,突触前活动对突触后神经元电活动可产生兴奋性或抑制性效应,从而影响动作电位触发的可能性。

人工智能模型

这一复杂过程是大脑功能和人类认知的基础。正是基于这一过程,研究人员开发出了人工智能模型,最初非常简单,随后随着技术的进步日益复杂。

什么是人工神经元?

通用定义

人工神经元是人工神经网络的基本单元。人工神经网络由一系列相互连接的神经元层组成,每一层从前一层的输出中获取输入。

人工神经元的数学本质

人工神经元并非计算机比特(0或1),而是数学抽象概念(数字、运算、函数、方程、矩阵、集合、概率等)。换言之,它们是处理单元,对输入的数据执行数学运算。与作为数字信息存储基础的计算机比特不同,它们不存储数据。

激活电位与突触权重

在人工神经网络中,每个神经元由一个称为“激活电位”的变量来表征其活动水平。神经元的突触则由另一个称为“突触权重”的变量来表征。

- 激活电位表示突触后神经元在特定时刻的电状态。它通过汇总来自突触前神经元的输入信号计算得出,每个信号都受到相应突触权重的调节。激活电位可在负值到正值的范围内连续变化,具体取决于传入信号的强度。

- 突触权重决定突触连接是兴奋性、抑制性还是无效的。权重调节输入信号对激活电位的影响。正权重增强活动,负权重减弱活动,零权重则无影响。

激活函数与信息处理

激活电位由输入信号经突触权重加权组合而成。该电位随后经过激活函数处理,引入非线性特性,并决定突触后神经元是否产生响应(动作电位)。最终,这些机制使神经元能够处理信息并对刺激做出适应性反应。这些变量的运作对于模拟神经元行为至关重要,无论是在生物神经网络还是人工神经网络中。

神经元计算的具体实例

示例结构

设想一个用于图像分类的人工神经网络。 该网络有一个突触后神经元,它接收来自三个突触前神经元的连接。 这三个突触前神经元各自与网络正在分析的图像的特定特征相关联,例如垂直线、水平线和曲线的存在。

信号的加权

突触后神经元的初始激活电位为0。当三个突触前神经元发送信号时,每个信号会乘以对应连接的突触权重。假设突触权重如下:- 垂直线特征的突触权重:+0.5- 水平线特征的突触权重:-0.3- 曲线特征的突触权重:+0.2

活化电位的计算

来自三个突触前神经元的信号分别乘以其突触权重后求和。若信号如下: - 垂直线信号:1 - 水平线信号:0.5 - 曲线信号:0.8 则激活电位计算如下: 激活电位 = (1 × 0.5) + (0.5 × (-0.3)) + (0.8 × 0.2) = 0.5 - 0.15 + 0.16 = 0.51

阈值与决策

如果激活电位超过设定的阈值(例如0),突触后神经元将产生动作电位,表明图像中已检测到所需特征。

突触权重的作用

在此示例中,突触权重在决定每个图像特征的相对重要性方面起着关键作用。由突触权重加权的输入信号用于计算激活电位,若该电位超过阈值,则会触发突触后神经元的响应。这使得神经网络能够根据图像中检测到的特征做出决策。

人工神经网络是如何工作的?

硬件基础设施

人工神经网络的硬件基础设施并非生物性的,而是与经典计算相同(微处理器、显卡等)。

软件基础设施

人工神经网络的软件基础设施有所不同。机器学习算法从数据中学习,并根据提供的示例调整其行为,而传统编程算法则基于静态的明确指令,这些指令不会自行改变。从这个意义上说,人工智能是一场革命,因为要静态编写拥有1750亿个参数的ChatGPT 3.5的规则,将需要数千年的时间。

层级组织

神经网络按层组织,其中每个人工神经元(数学函数)接收输入,对这些输入进行计算,并生成输出。第一层是输入层,接收原始数据(文本、数字图像或其他收集的数据)。其后是一个或多个隐藏层(从外部无法访问),最后是输出层,用于生成预测结果。

信息传播

为了进行预测,数据从输入层传播到输出层。每个神经元对其加权输入求和,应用激活函数,并将结果传递到下一层。

激活函数的作用

激活函数为网络引入了非线性特性。这意味着量之间的关系并非恒定比例,而是一种概率关系。正是这一点赋予了神经网络解决各类问题的能力,从图像识别到机器翻译,再到自然语言建模,皆涵盖其中。

标签比较与误差测量

做出预测后,网络会将自身结果与正确标签进行对比,以衡量两者之间的误差或差异。 正确标签是监督学习模型训练集的关键组成部分。 训练集中的每个样本都配有正确标签,从而使模型能够学习做出准确的预测。

权重调整:反向传播

下一步,反向传播算法会调整网络的权重(即决定神经元如何响应输入的内部参数)。 这使其能够找到使模型误差最小化的数值。 该过程会不断重复,直到网络达到令人满意的性能水平。

网络超参数

在网络中,还有一些超参数需要调整,例如学习率、使用的批量大小、网络架构、各层激活函数的选择等。在评估每种组合的模型后,研究人员会选择在验证数据上表现最佳的超参数。

最终评估

最后,训练好的模型会在新的、未见过的数据上进行评估。

神经网络的学习过程

训练集

假设我们有一个数据中心,能够提供10万张不同的28x28灰度图像,这些图像代表从0到9的手写数字。

网络架构

我们的神经网络将有一个输入层,其大小设置为图像尺寸(28x28个神经元),一个或多个隐藏层,以及一个包含10个神经元的输出层(因为有10个可能的数字:0到9)。输出层中的每个神经元代表图像对应某个特定数字的概率。神经元之间连接的权重最初被设置为随机值。

特征提取:卷积

原始数据,例如数字3的数字图像,被输入到输入层。为了分析图像的局部区域,卷积滤波器在图像上滑动,提取分层视觉特征图。第一层检测边缘,而更高层则检测更复杂的模式。

传播与内部计算

数据通过网络传播,遵循加权连接并应用激活函数。在每一层中,执行数学运算以获得输出。

最终预测

输出层为每个数字(0-9)生成分数。 一个函数将这些分数转换为概率。 概率最高的数字将成为网络的预测结果。

成本函数

接下来,网络会将其预测结果与图像的实际标签进行比较。成本函数用于衡量模型预测与实际标签之间的差异。

反向传播与优化

为此,误差通过网络反向传播。 网络利用梯度下降等算法,逐层调整其参数(权重和偏置)以最小化误差。

迭代训练

这个过程在大量的训练图像上重复进行。网络会在每次迭代中调整其参数,以改进对手写数字的分类效果。一旦网络训练完成,它将在独立的数据集上进行测试,以评估其性能。

关键要点

人工神经网络受人类大脑启发:相互连接的神经元交换信号,其影响由突触权重调节。在人工版本中,每个神经元是一个数学函数,计算其输入的加权和,应用激活函数,并传递结果。

学习涉及通过反向传播和优化(梯度下降)过程,根据示例自动调整突触权重。正是这种无需显式编程规则的学习能力,将人工智能与传统计算区分开来。

在实践中,网络被组织成多个层(输入层、隐藏层、输出层),经过对标注数据的迭代训练后,它能够对新数据(如图像识别、语言处理等)进行预测。

常见问题解答:关于人工神经网络你需要知道的一切

生物神经元与人工神经元有何区别?

生物神经元通过电信号和化学信号(神经递质)交换信息。人工神经元是一种执行计算的数学抽象(数字、函数)。与计算机的比特不同,它不存储数据,而是通过激活电位和突触权重处理信息。

人工神经网络是如何学习的?

学习过程主要分为三个步骤:首先,网络通过将输入数据逐层传播来做出预测。接着,它通过代价函数将预测结果与正确标签进行比较。最后,反向传播算法调整突触权重以最小化误差,并在大量样本中重复这一过程。

为什么神经网络中要使用激活函数?

激活函数向网络引入了非线性。这意味着量之间的关系并非恒定比例,而是一种概率。这一特性使得神经网络能够解决图像识别、机器翻译或自然语言建模等复杂问题。

本类别探索内容

AI工具:如何选择? AI工具:如何选择?
人工智能:噪声制造者与即将破裂的认知泡沫
人工智能:噪声制造者与即将破裂的认知泡沫
生成式人工智能 vs 通用人工智能:模仿的终点与意识的起点在哪里? 生成式人工智能 vs 通用人工智能:模仿的终点与意识的起点在哪里?
人工网络 vs 生物网络:两个系统,一种共同架构 人工网络 vs 生物网络:两个系统,一种共同架构
人脑与人工智能:相似与差异 人脑与人工智能:相似与差异
AlphaGo vs AlphaGo Zero:人工智能的一场革命 AlphaGo vs AlphaGo Zero:人工智能的一场革命
智能机器的下一步 智能机器的下一步
生命涌现的第一步 生命涌现的第一步
从生物神经元到形式神经元:大脑的简化 从生物神经元到形式神经元:大脑的简化
人工智能:巨人主义的爆炸 人工智能:巨人主义的爆炸
当AI模型用自己的数据训练时,它们会发疯! 当AI模型用自己的数据训练时,它们会发疯!
人工智能的涌现:智能的幻觉还是真正的智能? 人工智能的涌现:智能的幻觉还是真正的智能?
人工智能与自然语言 机器如何以类似人类的方式理解、解释和生成语言?
人工神经网络是如何工作的? 人工神经网络是如何工作的?