首页特征学习

特征学习

玻尔百科

定义

特征学习是机器学习领域中一套旨在从原始数据中自动发现用于特征检测或分类的表示形式的技术。该过程依赖于不变性和可分性等核心原则，以识别对特定任务有用的模式，而非数据中存在的任意结构。现代方法通常利用自监督学习从无标签数据中提取丰富的通用特征，或结合物理不变性等领域知识来引导和约束特征发现过程。

核心要点

有效的特征学习旨在发现对特定任务有用的模式，而不仅仅是数据中存在的任何任意结构。
强大的特征由不变性（捕捉对象的核心本质）和可分性（简化复杂问题）等指导原则定义。
自监督学习等现代技术允许模型通过创建自身的学习任务，从未标记数据中学习丰富的通用特征。
最前沿的应用将机器学习与领域知识相结合，利用物理不变性等原则来指导和约束特征发现过程。

引言

在现代世界，我们被海量原始数据所包围，从病毒的遗传密码到粒子对撞机产生的 PB 级数据。这些原始形式的数据通常过于复杂和高维，难以利用。关键的挑战在于将这种压倒性的复杂性转化为简单、强大且有意义的概念。这就是特征学习的精髓，它通过教机器从感知走向理解，驱动着现代人工智能的发展。

然而，仅仅在数据中找到任何模式是不够的，甚至可能具有误导性。真正的知识鸿沟在于识别哪些模式对于特定问题是真正有用的。本文通过探索寻找正确抽象的艺术和科学，直面这一挑战。

在接下来的章节中，您将首先探索特征学习的基本“原则与机制”。我们将揭示区分强大特征与无用特征的指导原则——如不变性和可分性，并考察使机器能够自主学习这些特征的现代自监督方法。随后，在“应用与跨学科联系”部分，我们将遍览不同的科学领域，看这些概念如何彻底改变从药物发现到基础物理学的研究，从而在数据驱动的发现与既有科学理论之间建立起强大的协同作用。

原则与机制

想象一下，你正试图向一个素未谋面的人描述你的朋友。你可以从大量原始数据开始：他们身高的毫米数、头发颜色的精确 RGB 值、笑声的精确频率。这在技术上是准确的，但完全没有用。相反，你会使用特征：“他们很高”、“他们有温暖的微笑”、“他们会讲有趣的故事”。这些特征不是原始数据；它们是抽象，是捕捉你朋友本质的概念。这就是特征学习的核心：教机器找到自己独到的抽象，从一个由离散数据点组成的宇宙走向一个充满有意义概念的世界的艺术和科学。

结构的“塞壬之歌”

人们可能天真地认为，目标只是在数据中找到任何模式或结构。这是一条诱人但危险的道路。让我们考虑一个思想实验，它揭示了这种思路中的一个深刻陷阱。想象一个平面上的点数据集。这些点清晰地形成两个截然不同、形态优美的点云，如同夜空中的两个星系。任何旨在寻找簇的优秀无监督学习算法都会立即发现这两组。现在，假设我们接到一个监督学习任务：为每个点预测一个标签，比如“红色”或“蓝色”。我们被告知，这些标签是完全随机分配的，就像为每个点抛硬币一样，与其所属的点云无关。

如果我们试图使用我们发现的“优美”结构会发生什么？我们可能会决定为第一个点云中的所有点预测“蓝色”，为第二个点云中的所有点预测“红色”。这感觉很智能——我们正在利用结构！但由于标签是随机的，这种策略不会比猜测好，而且可能比简单地为每个点预测多数颜色更糟。特征的结构，即两个不同的点云，与我们想要解决的问题的结构完全无关。这些簇是塞壬的歌声，引诱我们走向一个无意义的模式。

这不仅仅是一个人为设计的例子。在一项真实的研究中，研究人员试图根据患者的基因表达数据来预测其对疫苗的反应，数据中变化最主要的来源可能是用于测序的机器，或是抽血的时间。像主成分分析（PCA）这样的无监督方法，其设计初衷就是找到这些最大方差方向，它会抓住这种技术性噪声，并自豪地将其呈现为最“重要”的特征。它会学习到一个完美的特征来告诉你使用了哪台测序机，却对真正能预测免疫反应的微妙生物信号完全视而不见。

这引出了我们的第一个，也是最重要的原则：特征中的结构不等于对任务有用的结构。 特征学习的巨大挑战不仅在于找到任何模式，而在于找到正确的模式。那么，我们如何找到方向呢？我们需要一个指南针。

发现的指南针：良好特征的指导原则

是什么将无用的特征与强大的特征区分开来？事实证明，有一些深刻的原则指导着我们对有意义表示的探索。

不变性：不变的核心

一个真正深刻的特征是能够捕捉事物本质的特征，这个本质即使在表面细节变化时也保持不变。这就是不变性原则。

考虑这样一个任务：根据分子中原子的位置学习其势能。物理学的一条基本定律是，如果将整个分子在空间中旋转或移动，其能量不会改变。能量对全局旋转和平移是不变的。如果一个机器学习模型必须为它遇到的每一个新分子重新学习这条基本定律，那将是极其低效的。相反，我们可以将这一原则直接构建到我们的特征中。我们设计一种分子的数学描述——一种描述符——它只使用内部分子距离和角度。通过其构造本身，无论分子在空间中如何取向，这种描述符都会产生完全相同的输出。我们已将一条物理定律融入到我们的表示中，从而让模型能够专注于学习几何与能量之间更复杂的、困难得多的关系。

这个想法远远超出了物理学的范畴。想象一个模型，它被训练用来根据波士顿一家医院收集的组织样本诊断疾病。我们希望这个模型也能适用于东京一家医院的新样本。由于设备、患者群体和环境的不同，来自东京的数据不可避免地会带有不同的统计“风味”。这被称为领域漂移。一个简单的模型会被这些表面差异所迷惑。然而，一种强大的特征学习方法会寻求找到一种对领域不变的表示——一组能够滤除数据中“波士顿特性”或“东京特性”并只捕捉疾病本身核心生物信号的特征。

可分性：化繁为简

良好特征表示的另一个标志是它能使手头的问题变得更简单。通常，正确的特征可以将一个棘手纠缠的问题转化为一个优美简单的问题。

想想“鸡尾酒会问题”。你身处一个房间，有两个人同时说话。你的每只耳朵都接收到两种声音的混合信号。要从这种原始的混合信号中理解任何一个人的讲话都很困难。然而，你的大脑是一个卓越的特征学习者。它执行了一项令人难以置信的“解混”壮举，将一个说话者的声音与另一个分离开来。在这个新的“解混”表示中，理解一个人说了什么的问题变得微不足道。这就是像独立成分分析（ICA）这类方法的目标。如果原始数据是独立底层源的混合，而你关心的任务只依赖于其中一个源，那么找到一个能将它们解混的表示，就可以将问题的难度从不可能降低到初级水平。

我们在研究像流体流动这样的复杂物理系统时可以看到这一点。一个描述数千个点运动的原始速度场，是一个维度高到天文数字的对象。然而，在应用了像 PCA 这样的特征学习算法后，我们可能会发现其基本动力学仅能由少数几个数字来描述。在这个新的、低维的特征空间中，一个旋转的涡旋和一个平滑的剪切流，在原始数据中看起来截然不同，但在这里可能表现为两个清晰且易于分离的点簇。一个复杂的分类问题被简化为在两组点之间画一条线。

等变性及其他约束

有时，我们不希望一个特征是完全不变的。如果一个客户的交易金额翻倍，我们可能不希望我们的特征表示保持不变；那是丢弃了关键信息！相反，我们可能希望表示以一种可预测的、结构化的方式发生变化。这被称为等变性。一个等变特征编码了事物如何发生变化。

除了单纯的准确性，我们甚至可以设计特征变换来强制执行社会价值观，比如公平性。如果我们发现一个模型的分数在不同人口群体之间显示出系统性偏差，我们可以应用一种特定的归一化技术。通过计算每个群体内部特征的均值和标准差，然后基于这些特定于群体的统计数据对数据进行标准化，我们可以强制所有群体的平均特征值变得相同。这种在主模型之前应用的变换，可以被证明能够消除群体之间平均分数的差异，从而直接促进一种特定定义的公平性。从这个角度看，特征学习不仅成为发现“是什么”的强大工具，也成为塑造“应该是什么”的强大工具。

现代炼金石：从自身学习特征

几十年来，寻找好特征的过程是一门被称为“特征工程”的艰苦艺术，需要大量的领域专业知识。现代深度学习的革命已经将这个过程自动化，将艺术转变为科学。但这带来了一个悖论：要学习好的预测性特征，我们似乎需要标签（监督），但标签恰恰是常常稀缺且昂贵的东西。

突破性的解决方案是自监督学习（SSL），一个非常巧妙的想法：如果我们能直接从数据本身免费创造出无穷无尽的标签呢？

今天 SSL 中最强大的范式是对比学习。其方法简单而优雅。取一个数据点，例如一张猫的图片。通过应用随机增强（比如，一个裁剪，一个旋转）来创建它的两个略有扭曲的“视图”。这对视图现在被标记为“正样本对”。你数据集中的任何其他图片都是“负样本”。你给模型的任务看似简单：学习一种表示，使得这只猫的两个视图在特征空间中彼此更相似，并且比与任何其他图片的相似度都高。

这为什么会起作用？为了完成这个任务，模型被迫忽略表面的变换——裁剪、旋转、颜色变化——而只关注图像的语义本质。它必须学会这是一只猫，而且是这只特定的猫。为了对数百万张图片都做到这一点，它必须学习关于纹理、形状、部分及其关系的知识。它学习了一种丰富的世界视觉语法，而所有这一切都没有一个人类提供的标签。

这个过程看似神奇，却有一个惊人简单的解释。对比学习目标（称为 InfoNCE）在数学上等同于一个巨大任务的标准分类损失：将数据集中每个实例都分类为自己独特的类别。模型实际上被训练来回答这个问题：“在我见过的千万只猫中，这是哪一只特定的猫？”为了成功，它必须成为猫的鉴赏家，学习到极其强大和通用的特征。这些自监督特征已被证明非常有效，可以用来初始化用于各种下游任务的模型，其性能往往能达到甚至超过使用完全监督训练的模型的性能。

特征学习是现代人工智能的决定性引擎。它是从原始高维数据的压倒性复杂性到能够实现推理和预测的简单、强大且往往优美的概念之间的桥梁。这是一段从感知到理解的旅程。

应用与跨学科联系

有一个精彩的故事，或许是杜撰的，说一个学生问伟大的物理学家 Enrico Fermi，他如何能如此迅速地估算出几乎任何问题的答案。据说 Fermi 回答说，物理学不是要记住所有公式，而是要了解哪些数字大，哪些数字小。在许多方面，科学的艺术就是知道该忽略什么的艺术。它是看着一团旋转、混乱的信息，并从中挑出少数几个讲述真实故事的关键特征的艺术。

几个世纪以来，这门艺术一直是人类思维的专属领域，需要多年的学习和直觉来磨练。一个生物学家，看着一个蛋白质，会知道要考虑它的电荷和对水的亲和力来猜测它的行为。一个工程师，观察一根振动的弦，会知道要测量它的阻尼比和周期的稳定性来分类它的运动。他们通过手工进行特征工程，将复杂的现实简化为少数几个有意义的数字。

但是，如果我们能把这门艺术教给机器呢？如果机器能够靠自己学会如何看待世界——如何找到那些重要的特征呢？这就是特征学习的承诺，而这个承诺正在悄然重塑科学和工程的版图。

从手工特征到自动发现

经典方法尽管取得了种种成功，但也有其局限性。当我们手工制作特征时，我们将自己的偏见和有限的理解嵌入到模型中。我们可能会错过一些关键的东西，一些我们的理论尚未捕捉到的微妙相互作用。超越这一步的第一步是变得更加系统化。

想象一下试图预测一条 RNA 链将如何与一个蛋白质相互作用。传统方法可能涉及对两个分子之间所有可能排列进行复杂且计算成本高昂的模拟，这个过程可能需要很长时间。一种更聪明、基于特征的方法是简单地计算 RNA 和蛋白质中所有短子序列（称为 $k$-mers）的频率。这为我们提供了每个分子的固定大小的“指纹”。然后我们可以用这些指纹来训练一个机器学习模型，这样效率要高得多。我们不再进行缓慢的、成对的舞蹈，而是对两个静态的轮廓进行快速比较。我们仍然在告诉机器要寻找什么——在这里是 $k$-mers——但我们是以一种更全面、更自动化的方式来做的。

我们可以将类似的想法应用于随时间变化的数据。我们不仅可以观察系统的最终状态，还可以创建描述其动态的特征。对于一个时间序列，我们可以使用一个优美的数学工具，即均差（divided differences），来系统地计算其局部的“速度”和“加速度”。这些成为捕捉系统轨迹而不仅仅是其快照的特征。在这两个例子中，我们已经从手工挑选几个“黄金”特征转向算法生成一整本特征词典。这是一个强有力的进步，但真正的革命在于迈出下一步：让机器编写自己的词典。

深度学习革命：学会观察

现代深度学习的突破在于，我们可以设计出能够直接从原始或最少处理的数据中学习特征的网络。网络架构本身变成了一台用于观察的机器。

思考药物发现的巨大挑战。我们有一个目标蛋白，可能与某种疾病有关，还有一个候选药物分子。它们会结合吗？结合强度如何？这是一个生死攸关的问题，也是一个极其复杂的问题。蛋白质是一长串一维的氨基酸序列；药物是一个复杂的三维原子和化学键图。机器如何从如此不同的对象中学习？

答案是一种“多模态”架构，一个有两只眼睛的网络。一个分支，一个一维卷积神经网络（1D CNN），沿着蛋白质序列滑动，学习识别形成结合位点的关键氨基酸模式和基序。另一个分支，一个图卷积网络（GCN），沿着药物分子的化学键“行走”，学习每个原子的化学环境。每个分支为其特定的模态发展出自己的内部表示——自己学习到的特征。然后，这两个丰富的特征向量被汇集、连接在一起，并输入到网络的最后一部分，由它做出最终预测：一个表示结合亲和力的单一数值。机器没有被告知疏水性或电荷；它从数据本身、从头开始学习了相关概念。

这种学习表示的能力不仅限于现实世界的物体；它还可以用于导航科学模拟的抽象世界。许多科学问题，从设计飞机机翼到预测天气，都依赖于可能极其昂贵的计算机模拟。一个高分辨率模拟可能需要在超级计算机上运行数周。一个低分辨率的模拟可能在笔记本电脑上只需几分钟，但其结果不太准确。我们能两全其美吗？

在这里，特征学习通过一种称为迁移学习的策略提供了一个卓越的解决方案。我们可以用大量廉价、低保真度的模拟数据来训练一个深度神经网络。这样做时，网络不仅仅是在记忆输入和输出；它在学习物理学的底层“语言”——流动、压力和几何的基本特征。一旦这种表示被学习到，我们就可以用极少数昂贵、高保真度的模拟来“微调”这个网络。网络将其知识从廉价世界转移到昂贵世界，有效地学习了从低保真度到高保真度所需的修正。它学会了像物理学家一样看待问题，利用廉价数据建立直觉，利用昂贵数据确定精确细节。

现代特征学习中最深刻的想法或许是，最好的特征不仅对一个任务有好处，而且对许多任务都有好处。一个真正好的世界表示应该能预测世界。这一见解正被用来增强强化学习，即训练智能体做出最优决策的人工智能领域。在一个复杂的环境中，如果行动与未来奖励之间的联系很微弱，智能体可能难以学会哪些行动能带来奖励。为了帮助它，我们可以给它一个“辅助任务”。在学习预测奖励的同时，我们还让智能体预测它接下来会看到什么。为了同时完成这两项任务，智能体被迫构建一个更丰富、更通用的环境内部表示。它不仅学习通往目标的路径，还学习了整个区域的地图。这个过程，通常被称为自监督学习，正使智能体能够更有效地学习，通过简单地尝试理解自己的感官体验来构建稳健的特征。

指导机器：物理学与数据的协同作用

这是否意味着科学家的直觉现在已经过时了？远非如此。最激动人心的前沿是人类知识与机器学习相遇的地方。我们可以利用我们对世界的理解为学习过程提供护栏，确保机器的发现尊重基本定律。

物理学中最强大的指导原则之一是不变性。物理定律不依赖于观察者的视角。描述材料如何变形的本构律必须是客观的；它不能依赖于你选择用来书写它的坐标系。如果材料具有内部对称性——例如，如果它是由纤维增强的复合材料，所有纤维都指向一个方向——那么该定律也必须尊重这种对称性。

我们可以利用这些原则自己来构建特征，而不是将原始数据扔给机器并期望得到最好的结果。对于纤维材料，连续介质力学的数学告诉我们，任何有效的材料定律都可以表示为五个特定标量（或称“不变量”）的函数。这五个数字（ $I_1, \dots, I_5$ ）构成一个完整的、基于物理学的特征集。通过将这些不变量输入我们的机器学习模型，我们保证其预测将自动是客观的，并与材料的对称性一致。这是第一性原理理论与数据驱动灵活性的完美结合，一个站在 Cauchy 和 Green 等巨人肩膀上、同时从数据中学习的模型。

物理原则和数据驱动方法之间的这种深度相互作用出现在最意想不到的地方。考虑一下像大型强子对撞机这样的粒子加速器中发生的剧烈碰撞。物理学家们试图从产生的粒子碎片（或称“喷注”）中重建原始事件。这个喷注被软的、大角度的辐射所污染——这些噪声掩盖了核心的硬散射信号。为了清理它，他们使用像 SoftDrop 这样的“修饰”（grooming）程序。

这里可以做一个惊人的类比。修饰一个喷注就像修剪一个神经网络。SoftDrop 会移除远离喷注核心的低能量粒子。这在概念上类似于深度学习中的 $L_1$ 正则化或幅度剪枝，后者鼓励或强制不重要连接的权重变为零。在这两种情况下，我们都在移除低信号的贡献以简化模型并增加其鲁棒性。

但这个类比还可以更深入。粒子物理学中任何合理的可观测量的一个关键要求是它必须是“红外和共线（IRC）安全的”。这意味着如果一个无限软的粒子被添加到系统中，或者如果一个粒子分裂成两个完全共线的粒子，该可观测量不应改变。这是一个稳定性原则。SoftDrop 被明确设计用来保持修饰后喷注可观测量的 IRC 安全性。修剪一个神经网络没有这样内置的物理保证。但是，神经网络中与 IRC 安全性类似的概念会是什么样的呢？这将意味着网络的输出应该对添加零范数特征不敏感，也应该对将一个特征分裂成多个部分但其总和与原始特征相等不敏感。标准网络不具备这个属性，但提出这个问题促使我们思考设计新的、具备这种属性的架构——一种不仅强大，而且在物理学家会认可和信任的意义上具有根本鲁棒性的人工智能。

一种新的科学研究方式

从药物发现和计算流体力学，到力学和粒子物理学的基本定律，特征学习正成为一个不可或缺的工具。它使我们能够构建更强大、更高效、更具洞察力的模型。然而，正如我们所见，这不是一个盲目的、自动化的过程。在每个阶段，人类的创造力都发挥着作用：在设计能够实现学习的架构时，在制定指导学习的辅助任务时，以及在嵌入约束学习的基本对称性时。

而且，就像在任何科学事业中一样，严谨性至关重要。如果一个复杂的模型训练或验证不当，那它就是无用的。整个预处理、特征提取和建模过程必须封装在一个单一的、可复现的流程中，并经过仔细验证，以防止任何信息从测试集“泄漏”到训练过程中。这是一个微妙但至关重要的点。科学过程的完整性要求信息的守恒，确保我们对模型性能的评估是诚实和无偏的。

观察的艺术正在被改变。我们正在建造不仅能计算，而且能学会感知的机器。通过将数据的原始、未经修饰的力量与科学的深刻、有原则的理解相结合，我们正在创造一种向宇宙提问的新方式，并找到那些真正重要的特征。