try ai
科普
编辑
分享
反馈
  • 人工神经网络分类:从原理到跨学科应用

人工神经网络分类:从原理到跨学科应用

SciencePedia玻尔百科
核心要点
  • 人工神经网络分类器通过使用反向传播调整其内部权重来最小化损失函数,从而进行学习,并通过 softmax 函数将复杂输入转换为类别概率。
  • dropout 和 MC dropout 等技术对于防止过拟合以及使模型能够量化自身的不确定性(认知不确定性 vs. 偶然不确定性)至关重要。
  • 人工神经网络的真正力量体现在跨学科应用中,在这些应用中,其架构和损失函数会根据生物学、金融学和物理学等特定领域进行定制。

引言

人工神经网络(ANNs)彻底改变了我们处理复杂分类任务的方式,使机器能够学习那些对于人类来说过于复杂而无法明确定义的模式。然而,对许多人来说,这些强大的模型仍然是一个“黑箱”,其内部工作原理和真正潜力被复杂的数学所掩盖。本文旨在揭开这层面纱,弥合人工神经网络的广泛使用与对其核心原理及局限性的深入理解之间的差距。我们将首先探索​​原理与机制​​,分解网络如何通过梯度下降进行学习、处理信息,以及如何使其对错误更具鲁棒性。在这些基础知识之后,本文将探索广阔的​​应用与跨学科联系​​,展示人工神经网络不仅是工程工具,更是在生物学、金融学等领域进行科学发现的仪器,改变了我们从复杂数据中寻找意义的能力。

原理与机制

想象一下,你想教计算机区分猫和狗的图片。你该如何开始呢?你不能简单地写下一套规则,比如“如果它有尖耳朵,那就是猫”。有些狗有尖耳朵,而有些猫的耳朵是折叠的。这个任务似乎复杂到令人绝望。人工神经网络(ANNs)提供了一种完全不同的方法。我们不是自己尝试指定规则,而是构建一个能够从示例中学习规则的机器。让我们层层剥开,看看这台非凡的机器是如何工作的。

作为函数机器的分类器

从本质上讲,神经网络分类器是一个数学函数,尽管是一个非常复杂的函数。它接收一个输入,比如一张图片的数百万个像素值,并通过一系列步骤对其进行转换,直到产生一个简单的输出:一组分数。对于我们的猫狗问题,我们可能会有两个分数——一个代表“猫的程度”,一个代表“狗的程度”。

网络由一些简单的组件构建而成,这些组件通常被称为​​神经元​​,并组织成​​层​​。单个神经元做的事情非常基础:它接收一组输入,将它们与一些称为​​权重​​的内部数字相乘,然后将所有结果相加,再将总和通过一个称为​​激活函数​​的非线性函数。一个流行的选择是​​修正线性单元(ReLU)​​,它简单到近乎可笑:如果输入是正数,它就原样输出;如果输入是负数,输出就是零。就是这样。它就像一个信息的单向门。

一个层由许多这样的神经元组成,每个神经元都观察前一层的输出。输入图像被送入第一层,第一层计算其输出;这些输出随后成为第二层的输入,依此类推。这种级联式的转换,即一系列的线性乘法和非线性激活,使得网络能够构建起一个极其丰富的特征层次结构。第一层可能会学习检测简单的边缘和颜色。下一层可能会组合这些边缘来找到耳朵和鼻子。更深层的网络可能会组合这些特征来识别“猫脸”或“狗脸”。

最后,在通过所有这些隐藏层之后,高级特征被送入一个最终的输出层,该层计算原始分数,即 ​​logits​​。但分数不是概率。猫的分数为 10,狗的分数为 5,这显然更偏向于猫,但我们有多自信呢?为了将这些任意的分数转换成一个有意义的概率分布,我们使用一个极其优雅的函数,称为 ​​softmax​​。softmax 函数接收所有原始分数,并将它们压缩成一组总和为一的正数,就像概率应有的那样。如果“猫”的 logit 是 zcatz_{\text{cat}}zcat​ ,“狗”的 logit 是 zdogz_{\text{dog}}zdog​,那么它是猫的概率由以下公式给出:

pcat=exp⁡(zcat)exp⁡(zcat)+exp⁡(zdog)p_{\text{cat}} = \frac{\exp(z_{\text{cat}})}{\exp(z_{\text{cat}}) + \exp(z_{\text{dog}})}pcat​=exp(zcat​)+exp(zdog​)exp(zcat​)​

指数函数确保了较大的分数能获得更大概率份额,使网络的决策更具决定性。现在,我们有了一个完整的函数机器:输入像素,输出类似“90% 是猫,10% 是狗”的概率。但是,我们如何找到合适的权重来使这些概率与现实相符呢?

循坡而学

一个刚初始化的网络是一个糟糕的分类器。它的权重是随机的,其输出也毫无意义。​​训练​​的过程就是调整这数百万个权重,直到网络的输出正确为止。这背后的核心机制是​​梯度下降​​。

首先,我们需要一种方法来量化网络“错”的程度。我们使用​​损失函数​​。对于分类任务,一个常见的选择是​​交叉熵损失​​。它衡量网络赋给正确类别的概率,如果该概率低,损失就高;如果该概率高,损失就低。训练的目标就是调整权重,使得在数千个训练样本上的总损失尽可能小。

想象一下,损失函数是一个广阔、多山的地形,其中每一点都对应着网络所有权重的一种不同设置。我们的目标是在这个地形中找到最低的谷底。为此,我们使用梯度。​​梯度​​是一个向量,它在任意给定点指向最陡峭的上升方向。要下山,我们只需要朝着梯度的相反方向迈出一小步。我们一遍又一遍地重复这个过程,并希望能够最终下到一个损失很低的深谷中。

使这一切成为可能的魔法是一种叫做​​反向传播​​的算法,它实际上只是微积分中链式法则的一个巧妙应用。它计算损失函数相对于网络中每一个权重的梯度。计算从输出端开始,然后向后进行。令人惊奇的是,损失函数相对于输出 logits 的梯度具有一个极其简单和直观的形式。对于给定的类别 kkk,梯度分量与 pk−ykp_k - y_kpk​−yk​ 成正比,其中 pkp_kpk​ 是模型预测的概率,而 yky_kyk​ 是真实值(如果它是正确类别则为 1,否则为 0)。学习信号就是误差——网络所想与现实之间的差异。这个误差信号然后被反向传播,告诉每个权重应该如何改变以减少误差。

这个过程受到几个关键因素的调节。一个是 ​​softmax 温度​​ τ\tauτ,这是一个控制 softmax 函数锐度的参数。低温会使输出概率更极端,这可能导致更大的梯度和更激进的学习。另一个是隐藏层中激活函数的斜率。如果斜率为零(就像 ReLU 的负数部分),梯度就无法向后流动,该神经元的学习就会停滞。这些元素就像旋钮和闸门,控制着学习信号在整个网络中的流动。

通往顿悟的噪声之路

在包含数百万张图片的整个数据集上计算梯度,其计算成本高得令人望而却步。取而代之的是,我们使用​​小批量随机梯度下降(SGD)​​。我们取一小批随机样本(比如 32 张图片),只计算这一批样本的平均梯度,然后朝着下坡方向迈出一小步。接着我们再取另一批随机样本并重复此过程。

这个过程会引入噪声。来自一个小批次的梯度只是对整个数据集真实梯度的一个粗略估计。这就像一个人试图在浓雾中走到谷底,只能看到脚下地面的坡度。他的路径会很不稳定,呈之字形。但这种噪声并不总是坏事!它可以帮助优化器摆脱小的、浅的谷底(局部最小值),并找到通往更深谷底的路径。

然而,我们必须管理这种噪声。想象一下,我们决定使用一个更小的批量大小。这会使我们的梯度估计更加嘈杂。为了补偿,我们可能应该采取更小的步长。一个常见的原则是调整步长,即​​学习率​​ η\etaη,以保持我们步长的总体方差恒定。如果我们将批量大小减小 kkk 倍,一个很好的经验法则是将学习率减小 k\sqrt{k}k​ 倍,以保持训练的稳定性。这种在批量大小和学习率之间的精妙平衡是训练深度网络艺术的关键部分。

不可违背的信息定律

让我们从机制层面后退一步,问一个更根本的问题。网络对输入信息做了什么?一张猫的输入图片包含了大量信息:它皮毛的颜色、背景、光线,以及它是一只猫这个关键事实。网络的任务是提炼这些信息,丢弃不相关的部分(如背景),同时保留对分类任务至关重要的部分。

信息论中有一个基本原则,即​​数据处理不等式​​,它支配着这个过程。该原则指出,后处理不能增加信息量。当数据通过神经网络的各层,从输入 XXX 传递到一个隐藏表示 ZkZ_kZk​ 时,ZkZ_kZk​ 所包含的关于真实标签 YYY 的信息量不能大于原始输入 XXX 所包含的关于 YYY 的信息量。换句话说,I(Zk;Y)≤I(X;Y)I(Z_k; Y) \le I(X; Y)I(Zk​;Y)≤I(X;Y)。网络无法凭空创造关于标签的新信息;它只能转换或丢弃信息。

因此,从这个角度来看,训练的目标可以被视为:学习一系列的转换,这些转换选择性地丢弃 XXX 中对预测 YYY 无用的信息,同时保留有用的信息。一个训练良好的网络,其最终层包含的表示是输入的高度压缩、有效的摘要,完全为分类任务量身定制。我们甚至可以衡量这一点!通过观察模型的输出概率,我们可以估计其学习到的特征与真实标签之间的互信息。一个更“信息丰富”的模型将具有更高的互信息分数,表明它已经学习到了一个更有效的表示。

完美记忆的危险

拥有数百万个权重,深度神经网络具有惊人的学习能力。它能学会区分猫和狗的微妙模式,但它也能仅仅记住训练样本,包括它们的随机噪声和特性。这被称为​​过拟合​​。一个过拟合的模型可能在它所训练的数据上达到近乎完美的准确率,但在面对一张新的、未见过的图片时却表现得一塌糊涂。

过拟合模型的问题不仅在于它对新数据不准确,还在于它常常危险地过度自信。由于完美地记住了训练集,它会产生置信度极高的预测。当我们在验证集上检查其性能时,我们可能会发现,当它声称有 99% 的把握时,实际上只有 75% 的时间是正确的。这种置信度与准确率之间的不匹配被称为​​错误校准​​。相比之下,一个欠拟合的模型通常在训练和验证数据上都表现不佳,但它的预测更保守,有时甚至不自信。一个值得信赖的模型不仅应该准确,其置信度也应反映其正确的实际概率。

这种脆弱性可以以一种惊人的方式表现出来:​​对抗性样本​​。因为网络学习到的函数是如此复杂和高维,其决策边界可能极其扭曲。我们有可能拿一张网络以高置信度正确分类为猫的图片,然后向其添加一层微小的、人眼无法察觉的噪声。结果得到的图片对我们来说仍然和猫一模一样,但网络现在却以 99% 的置信度将其分类为狗。这是因为添加的噪声虽然微小,却将输入向量推过决策边界,进入了一个函数斜率陡峭得惊人的方向。分类问题可能是局部​​病态的​​:输入中的一个微小扰动可能导致输出发生灾难性的变化。

拥抱怀疑:通往智慧之路

我们如何才能构建出鲁棒、校准良好且能抵抗过拟合的模型呢?关键在于在学习过程中注入一剂谦逊和不确定性。

其中一种最有效的技术是 ​​dropout​​。在训练期间,对于每个小批量,我们随机“丢弃”一部分神经元——我们暂时忽略它们及其连接。这可以防止神经元之间过度协同适应,并迫使网络学习冗余的表示。它不能依赖任何单个、神奇的神经元来做决定,因为那个神经元在任何时候都可能不存在。这个简单的技巧是一种强大的正则化器,我们可以使用严谨的统计检验来证明它能显著提高模型对新数据的泛化能力。

但 dropout 还有更深层次的解释。如果我们在测试时也保持 dropout 开启会怎么样?每次我们将相同的输入通过网络,我们都会得到一个略有不同的答案,因为每次都有一组不同的随机神经元被激活。这种技术被称为​​蒙特卡洛(MC)dropout​​,其意义深远。这就好像我们训练了由许多略有不同的网络组成的整个集成模型,现在我们正在征求它们每一个的意见。

通过收集来自多次这样前向传播的预测,我们可以近似一个完整的贝叶斯预测分布。我们可以计算一个平均预测,但更重要的是,我们可以衡量预测之间的*分歧*。这种分歧就是我们模型的​​不确定性​​。

这种不确定性可以分为两种,一个优美的假设案例揭示了它们的区别。想象一个输入,其中一半的 MC 样本自信地预测“猫”,另一半则自信地预测“狗”。模型之所以不确定,是因为它在两种截然不同的可能性之间左右为难(​​认知不确定性​​,或模型不确定性)。现在想象另一个输入,几乎所有的 MC 样本都预测“猫”,但每个预测都是一个含糊不清的(0.4, 0.3, 0.3)概率向量。在这里,模型之所以不确定,是因为输入本身就很模糊,并且位于类别重叠的区域(​​偶然不确定性​​,或数据不确定性)。能够区分“我不知道,因为我的模型不确定”和“我不知道,因为这些数据本身就令人困惑”是一个真正智能系统的标志。这是数字智慧的开端。

应用与跨学科联系

窥探了人工神经网络(ANNs)的内部工作原理,理解了权重、偏置和激活函数的协同运作之后,我们可能会获得一种机械式的满足感。但这个工具真正的精神和美妙之处并不在于其孤立的力学原理,而在于当我们将它应用于世界,观察它如何处理交织在自然、金融和人类健康结构中那些复杂、微妙且常常出人意料的模式时,才得以显现。从数学抽象到发现工具的旅程,才是真正冒险的开始。

普适的模式识别器

从本质上讲,人工神经网络是一种功能极其多样的模式识别器。与为单一目的而锻造的专用工具不同,神经网络更像一个通用学习器,能够在迥然不同的数据中找到有意义的相关性。它的应用遍及几乎所有人类探究的领域,仅受限于我们构建问题的创造力。

思考一下金融和经济学的世界。我们常常在海量数据中寻找隐藏的、微妙的非线性关系。一个简单的线性模型可能无法捕捉决定一个家庭财务健康的复杂因素相互作用。然而,一个人工神经网络可以学会以复杂的方式权衡各种输入——如账单支付历史、信用使用情况和收入波动——从而创建一个复杂的分类器来预测财务困境的可能性。通过筛选这些模式,这样的模型可以提供超越简单经验法则的洞见,从而对经济行为提供更细致的理解。

现在,让我们从金融数据的静态快照转向生命本身动态展开的叙事:蛋白质。蛋白质是一条由氨基酸组成的长链,一个分子“字母”的序列。其功能主要由其最终的三维形状及其在细胞这座繁华城市中的位置决定。细胞如何知道将一个新合成的蛋白质送到哪里去呢?运输标签就直接写在它的氨基酸序列中。对于​​循环神经网络(RNN)​​来说,这是一个完美的问题。RNN 是一种专门设计用于处理序列数据的人工神经网络。RNN 一次读取一个氨基酸的蛋白质序列,维持一个“记忆”或隐藏状态,不断总结它所看到的内容。当它到达链的末端时,其最终的隐藏状态包含了整个蛋白质身份的压缩表示,从而能够以惊人的准确性预测该蛋白质是属于细胞核、细胞质还是线粒体。

人工神经网络的力量甚至延伸到由图所体现的关系和连接领域。想象一下,尝试为社交网络或蛋白质相互作用网络中的节点构建一个分类器。为每个节点获取标签可能成本高昂。我们如何智能地选择要标记哪些节点,以最有效地训练我们的模型?这就是​​主动学习​​的领域,它将我们引向与物理学的美妙联系。通过将图视为一个电网络,其中边的权重对应于其电导,我们可以找到在当前模型下最“不确定”的节点。这些节点原来是相对于已标记节点集具有最高​​有效电阻​​的节点。它们是电学上最孤立的,最不受我们已知信息约束的节点。通过查询这些高电阻节点,我们能学到最多的信息,从而使我们的学习过程效率大大提高。

这只是看待图的一种方式。科学中真正深刻的洞见往往来自于视角的根本性改变。如果我们不再将图看作节点和边的集合,而是看它的​​邻接矩阵​​——一个用点表示两个节点之间存在边的网格,会怎么样?如果我们巧妙地排列节点,网络中一个紧密联系的社群就会在该矩阵上显示为一个明亮的点方块。而图像上的一个明亮方块看起来像什么?一个物体!突然之间,一个网络科学的问题转变成了计算机视觉的问题。我们可以采用像 You Only Look Once(YOLO)这样强大的物体检测架构,并将其直接应用于邻接矩阵图像,就像在照片中寻找汽车或行人一样去发现社群。通常用于衡量预测框与汽车重叠程度的交并比(IoU)指标可以被无缝地重新用于衡量我们识别社群边界的好坏程度。这一跨越学科的惊人飞跃揭示了我们世界底层数学结构的深刻关联性。

机器的艺术:为世界量身定制网络

应用一个标准的神经网络是一回事;雕琢其内部架构以与特定问题的物理特性产生共鸣则是另一回事。这正是深度学习的实践成为一门真正技艺的地方,融合了科学与艺术。我们可以在两个关键地方施展这种技艺:网络的激活函数和其损失函数。

激活函数是神经元的“火花”,是使网络能够学习复杂模式的非线性开关。虽然像修正线性单元(ReLU)这样的通用函数在许多任务中表现出奇地好,但它并不总是最佳选择。思考一下金融回报这个动荡的世界,众所周知其表现出​​尖峰态​​,或称“肥尾”——意味着极端事件的发生比简单高斯分布预测的要普遍得多。像 tanh⁡(x)\tanh(x)tanh(x) 这样的标准激活函数会饱和,实际上忽略了非常大的输入。一个更好的方法是设计一个自定义的激活函数,它不会饱和而是随输入增长,从而保留关于这些极端的、肥尾事件的信息。我们可以设计一个在原点附近具有压缩性,但在较大值时变为线性的函数,从而完美匹配我们旨在建模的金融数据的统计特性。

这枚硬币的另一面是​​损失函数​​,这个数学表达式告诉网络何为“错误”。最简单的损失函数可能只是独立地惩罚每个不正确的预测。但如果输出的结构很重要呢?在预测蛋白质的二级结构时,我们知道 α-螺旋和 β-折叠不是孤立的点,而是形成连续的片段。交替出现的、单个残基结构的预测在生物学上是荒谬的。我们可以通过增强损失函数来教给网络这一点。我们添加一个从信息论中借来的惩罚项,该项衡量相邻残基的预测概率分布之间的“散度”。例如,残基 iii 和残基 i+1i+1i+1 预测之间的​​杰森-香农散度​​在它们相同时为零,随着差异增大而增大。通过要求网络最小化这个惩罚,我们鼓励它产生平滑、连续的预测,这些预测不仅在每个残基上是准确的,而且作为一个整体在物理上也是合理的。我们不仅仅是在训练网络;我们正在向网络灌输一种物理直觉感。

机器的智慧:拥抱不确定性与证据

也许人工神经网络分类最深刻的应用不是提供明确的答案,而是在面对不确定性时帮助我们更清晰地进行推理。一个只输出单一预测的分类器就像一个要求盲目信仰的神谕。一个真正的科学工具必须同时告诉我们它对自己的论断有多自信。

在高能物理学中寻找新粒子时,量化不确定性是至关重要的。在这里,我们可以使用一个由人工神经网络组成的​​集成模型​​,每个模型都经过略微不同的训练,来表示我们对最佳模型的不确定性。通过观察这个集成模型的预测,全方差定律使我们能够实现一件非凡的事情:我们可以将一个预测的总不确定性分解为两个不同的部分。

  • ​​偶然不确定性​​:这是过程固有的随机性,即使有完美的模型也无法消除的噪声。它是通过集成中每个模型所做预测的平均方差来估计的。
  • ​​认知不确定性​​:这种不确定性来自我们自身的无知,来自我们模型的局限性。它由集成中不同模型之间预测的方差来捕捉。如果所有模型都同意,我们的认知不确定性就低;如果它们分歧很大,认知不确定性就高。这是我们可以期望通过更多数据来减少的不确定性。 这种优雅的分解将人工神经网络从一个单纯的黑箱预测器提升为一个复杂的科学探究工具,它不仅告诉我们它在想什么,还能区分什么是根本上不可预测的,而什么只是尚未知晓。

最后,我们必须认识到,即使是最强大的人工神经网络,也只是复杂世界中众多证据来源之一。我们如何将其“意见”与包括人类专业知识在内的其他形式的知识相结合?想象一个网络分析医学影像并预测疾病概率为 0.70.70.7。同时,一个由三名放射科医生组成的小组审查同一影像并提供他们自己的投票。我们是相信机器还是相信人类?最理性的方法不是完全相信任何一方,而是将它们结合起来。这正是永恒而强大的​​贝叶斯法则​​的用武之地。网络的输出可以作为我们的先验概率。放射科医生的投票是新的证据。贝叶斯法则提供了一个形式化的、有原则的机制,根据这些证据更新我们的先验信念,从而得出一个比任何单一信息来源都更稳健的最终*后验概率*。在这种愿景中,人工神经网络不是人类专家的竞争对手,而是在合作和概率性寻求真理过程中的一个强大的新伙伴。

从金融到生物学,从网络科学到物理学,人工神经网络分类器的应用不仅仅是一系列巧妙技巧的集合。它们证明了一个单一、优雅的思想——从数据中学习模式——的力量,以及它连接不同领域、加深我们对世界的理解,并为我们提供更明智的工具来驾驭不确定未来的非凡能力。