深度解析深度神经网络：架构与学习

什么是人工神经网络？

人工神经网络是一种由数学处理单元（人工神经元）组成的计算机系统，这些单元按相互连接的层次组织起来。受人类大脑启发，它通过调整“突触权重”从数据中学习，从而执行图像识别或语言处理等任务，而无需对所有规则进行显式编程。

人工智能（AI）的目的

要理解人工神经网络的工作原理，首先需要掌握人工智能（AI）的含义。人工智能涉及创建能够无需人工干预自动执行任务的计算机系统，同时具备学习、适应、改进、交流，尤其是决策的能力。从这个意义上说，人工智能旨在复制人类智能的某些方面。

什么是人类智能？

大脑功能的定义与组织

智能的定义极具争议，但此处我们关注的是由大脑控制的功能含义。无论是行走这类机械性功能，还是决策这类认知性功能，其运作架构在我们大脑各区域中始终一致。所有功能均具有同等重要性，无高低贵贱之分。它们都通过由数十亿相互连接的神经元构成的庞大网络，以同等复杂的计算过程完成信息交换。信息通过电信号和化学信号进行传递。

神经元之间的通信

在人脑中，神经元之间的通信过程如下：- 当神经元细胞膜上启动的电信号达到临界阈值时，会触发一个短暂的生物电脉冲，称为"动作电位"。动作电位沿轴突传递至神经元的突触处。- 在突触（神经元之间的接触点）处，动作电位会触发释放称为"神经递质"的化学分子。- 神经递质随后与突触后神经元（接收信息的神经元）膜上的受体结合。这种化学结合会引发突触后神经元的电反应。- 突触后神经元整合来自发射神经元的所有输入信号，若达到临界阈值，则产生自身的动作电位，并沿其轴突传播，从而在网络中继续传递信息。

神经递质的作用

根据释放的神经递质类型，突触前活动对突触后神经元电活动可产生兴奋性或抑制性效应，从而影响动作电位触发的可能性。

人工智能模型

这一复杂过程是大脑功能和人类认知的基础。正是基于这一过程，研究人员开发出了人工智能模型，最初非常简单，随后随着技术的进步日益复杂。

什么是人工神经元？

通用定义

人工神经元是人工神经网络的基本单元。人工神经网络由一系列相互连接的神经元层组成，每一层从前一层的输出中获取输入。

人工神经元的数学本质

人工神经元并非计算机比特（0或1），而是数学抽象概念（数字、运算、函数、方程、矩阵、集合、概率等）。换言之，它们是处理单元，对输入的数据执行数学运算。与作为数字信息存储基础的计算机比特不同，它们不存储数据。

激活电位与突触权重

在人工神经网络中，每个神经元由一个称为“激活电位”的变量来表征其活动水平。神经元的突触则由另一个称为“突触权重”的变量来表征。

- 激活电位表示突触后神经元在特定时刻的电状态。它通过汇总来自突触前神经元的输入信号计算得出，每个信号都受到相应突触权重的调节。激活电位可在负值到正值的范围内连续变化，具体取决于传入信号的强度。

- 突触权重决定突触连接是兴奋性、抑制性还是无效的。权重调节输入信号对激活电位的影响。正权重增强活动，负权重减弱活动，零权重则无影响。

激活函数与信息处理

激活电位由输入信号经突触权重加权组合而成。该电位随后经过激活函数处理，引入非线性特性，并决定突触后神经元是否产生响应（动作电位）。最终，这些机制使神经元能够处理信息并对刺激做出适应性反应。这些变量的运作对于模拟神经元行为至关重要，无论是在生物神经网络还是人工神经网络中。

神经元计算的具体实例

示例结构

设想一个用于图像分类的人工神经网络。该网络有一个突触后神经元，它接收来自三个突触前神经元的连接。这三个突触前神经元各自与网络正在分析的图像的特定特征相关联，例如垂直线、水平线和曲线的存在。

信号的加权

突触后神经元的初始激活电位为0。当三个突触前神经元发送信号时，每个信号会乘以对应连接的突触权重。假设突触权重如下：- 垂直线特征的突触权重：+0.5- 水平线特征的突触权重：-0.3- 曲线特征的突触权重：+0.2

活化电位的计算

来自三个突触前神经元的信号分别乘以其突触权重后求和。若信号如下： - 垂直线信号：1 - 水平线信号：0.5 - 曲线信号：0.8 则激活电位计算如下：激活电位 = (1 × 0.5) + (0.5 × (-0.3)) + (0.8 × 0.2) = 0.5 - 0.15 + 0.16 = 0.51

阈值与决策

如果激活电位超过设定的阈值（例如0），突触后神经元将产生动作电位，表明图像中已检测到所需特征。

突触权重的作用

在此示例中，突触权重在决定每个图像特征的相对重要性方面起着关键作用。由突触权重加权的输入信号用于计算激活电位，若该电位超过阈值，则会触发突触后神经元的响应。这使得神经网络能够根据图像中检测到的特征做出决策。

人工神经网络是如何工作的？

硬件基础设施

人工神经网络的硬件基础设施并非生物性的，而是与经典计算相同（微处理器、显卡等）。

软件基础设施

人工神经网络的软件基础设施有所不同。机器学习算法从数据中学习，并根据提供的示例调整其行为，而传统编程算法则基于静态的明确指令，这些指令不会自行改变。从这个意义上说，人工智能是一场革命，因为要静态编写拥有1750亿个参数的ChatGPT 3.5的规则，将需要数千年的时间。

层级组织

神经网络按层组织，其中每个人工神经元（数学函数）接收输入，对这些输入进行计算，并生成输出。第一层是输入层，接收原始数据（文本、数字图像或其他收集的数据）。其后是一个或多个隐藏层（从外部无法访问），最后是输出层，用于生成预测结果。

信息传播

为了进行预测，数据从输入层传播到输出层。每个神经元对其加权输入求和，应用激活函数，并将结果传递到下一层。

激活函数的作用

激活函数为网络引入了非线性特性。这意味着量之间的关系并非恒定比例，而是一种概率关系。正是这一点赋予了神经网络解决各类问题的能力，从图像识别到机器翻译，再到自然语言建模，皆涵盖其中。

标签比较与误差测量

做出预测后，网络会将自身结果与正确标签进行对比，以衡量两者之间的误差或差异。正确标签是监督学习模型训练集的关键组成部分。训练集中的每个样本都配有正确标签，从而使模型能够学习做出准确的预测。

权重调整：反向传播

下一步，反向传播算法会调整网络的权重（即决定神经元如何响应输入的内部参数）。这使其能够找到使模型误差最小化的数值。该过程会不断重复，直到网络达到令人满意的性能水平。

网络超参数

在网络中，还有一些超参数需要调整，例如学习率、使用的批量大小、网络架构、各层激活函数的选择等。在评估每种组合的模型后，研究人员会选择在验证数据上表现最佳的超参数。

最终评估

神经网络的学习过程

训练集

假设我们有一个数据中心，能够提供10万张不同的28x28灰度图像，这些图像代表从0到9的手写数字。

网络架构

我们的神经网络将有一个输入层，其大小设置为图像尺寸（28x28个神经元），一个或多个隐藏层，以及一个包含10个神经元的输出层（因为有10个可能的数字：0到9）。输出层中的每个神经元代表图像对应某个特定数字的概率。神经元之间连接的权重最初被设置为随机值。

特征提取：卷积

原始数据，例如数字3的数字图像，被输入到输入层。为了分析图像的局部区域，卷积滤波器在图像上滑动，提取分层视觉特征图。第一层检测边缘，而更高层则检测更复杂的模式。

传播与内部计算

数据通过网络传播，遵循加权连接并应用激活函数。在每一层中，执行数学运算以获得输出。

最终预测

输出层为每个数字（0-9）生成分数。一个函数将这些分数转换为概率。概率最高的数字将成为网络的预测结果。

成本函数

接下来，网络会将其预测结果与图像的实际标签进行比较。成本函数用于衡量模型预测与实际标签之间的差异。

反向传播与优化

为此，误差通过网络反向传播。网络利用梯度下降等算法，逐层调整其参数（权重和偏置）以最小化误差。

迭代训练

这个过程在大量的训练图像上重复进行。网络会在每次迭代中调整其参数，以改进对手写数字的分类效果。一旦网络训练完成，它将在独立的数据集上进行测试，以评估其性能。

关键要点

人工神经网络受人类大脑启发：相互连接的神经元交换信号，其影响由突触权重调节。在人工版本中，每个神经元是一个数学函数，计算其输入的加权和，应用激活函数，并传递结果。

学习涉及通过反向传播和优化（梯度下降）过程，根据示例自动调整突触权重。正是这种无需显式编程规则的学习能力，将人工智能与传统计算区分开来。

在实践中，网络被组织成多个层（输入层、隐藏层、输出层），经过对标注数据的迭代训练后，它能够对新数据（如图像识别、语言处理等）进行预测。

常见问题解答：关于人工神经网络你需要知道的一切

生物神经元与人工神经元有何区别？

生物神经元通过电信号和化学信号（神经递质）交换信息。人工神经元是一种执行计算的数学抽象（数字、函数）。与计算机的比特不同，它不存储数据，而是通过激活电位和突触权重处理信息。

人工神经网络是如何学习的？

学习过程主要分为三个步骤：首先，网络通过将输入数据逐层传播来做出预测。接着，它通过代价函数将预测结果与正确标签进行比较。最后，反向传播算法调整突触权重以最小化误差，并在大量样本中重复这一过程。

为什么神经网络中要使用激活函数？

激活函数向网络引入了非线性。这意味着量之间的关系并非恒定比例，而是一种概率。这一特性使得神经网络能够解决图像识别、机器翻译或自然语言建模等复杂问题。

人工神经网络：深度学习与反向传播