try ai
科普
编辑
分享
反馈
  • 特征标准化

特征标准化

SciencePedia玻尔百科
核心要点
  • 具有不同范围的未缩放特征会主导 k-NN 等基于距离的算法和 SVM 等核方法,导致模型产生偏见且不准确。
  • 标准化通过创造更均匀的损失景观来提高梯度下降优化的效率,从而实现更快、更可靠的模型收敛。
  • LASSO 和 Ridge 等正则化技术依赖于标准化来公平地对所有特征施加惩罚,确保特征选择基于其重要性而非任意的单位。
  • 为防止信息泄露,缩放参数必须仅从训练数据中学习,然后应用于训练集和测试集。

引言

在机器学习的世界里,并非所有数据都是生而平等的。特征通常具有不同的单位和尺度——从千克到千米,从美元到摄氏度。虽然人类可以轻易地将这些差异置于具体情境中理解,但许多强大的算法却不能。它们将数值的大小直接解读为其重要性的度量,从而对数据产生扭曲的看法,这可能导致结果偏差和结论错误。这种由不同尺度带来的根本性挑战,是构建有效和公平模型的关键障碍。

本文通过探索​​特征标准化​​的理论与实践,正面应对这一问题。我们将揭开这一重要预处理步骤的神秘面纱,证明它不仅仅是一项技术杂务,而是成功实现机器学习的基础原则。在接下来的章节中,您将对该技术有一个全面的了解。第一章​​原理与机制​​将深入探讨标准化的数学和概念层面的必要性,探索其对基于距离的算法、优化过程和模型可解释性的影响。随后的​​应用与跨学科联系​​一章将跨越多个科学领域,展示标准化如何在从生物信息学到核物理学的各个领域中促成新发现并支持稳健的模型构建。读完本文,您将领会到为何为您的特征创建一个“公平的竞技场”是整个建模流程中最关键的步骤之一。

原理与机制

想象一下,您是一场奇异的十项全能比赛的裁判。第一个项目是铅球,成绩以米为单位,假设在 202020 米左右。第二个项目是 100 米短跑,成绩以秒为单位,大约在 101010 秒左右。现在,为了决出总冠军,您决定简单地将分数相加。一位铅球运动员得分 21.021.021.0,一位短跑运动员得分 9.89.89.8。短跑运动员的总分是 30.830.830.8,而……嗯,这已经不重要了,不是吗?铅球运动员的分数,凭借其更大的数值尺度,完全主导了结果。短跑运动员世界级的表现几乎变得无足轻重。

简而言之,这就是我们的机器学习算法在处理未经缩放的原始数据时所面临的挑战。许多算法,尤其是那些最直观的算法,是通过距离和几何的语言来感知世界的。为了公平地对待它们,我们必须首先建立一个公平的竞技场。这就是​​特征标准化​​所扮演的简单而又深刻的角色。

单位与尺度的暴政

许多学习算法的核心是我们上学时都学过的一个概念:勾股定理。为了找出地图上两点之间的距离,您需要测量东西方向的距离(Δx\Delta xΔx)和南北方向的距离(Δy\Delta yΔy),直线距离就是 (Δx)2+(Δy)2\sqrt{(\Delta x)^2 + (\Delta y)^2}(Δx)2+(Δy)2​。这就是​​欧几里得距离​​,它是算法在任意维度中衡量“相似性”的基本方式。

但陷阱就在于此。该公式给予每个平方差 (xi−xi′)2(x_i - x'_i)^2(xi​−xi′​)2 相同的权重。如果一个特征,比如材料的熔点,范围从 300300300 到 400040004000 开尔文,而另一个特征,比如电负性,在泡林标度上的范围是 0.70.70.7 到 4.04.04.0,会发生什么呢?熔点的典型差异可能是 100010001000 K,对平方距离的贡献是 10002=1,000,0001000^2 = 1,000,00010002=1,000,000。而电负性的一个较大差异可能是 2.02.02.0,贡献是 2.02=42.0^2 = 42.02=4。熔点特征不仅仅是声音更大,它简直是在尖叫,而电负性则在低语。算法试图保持公正,但实际上却忽略了这声低语。

这不是一个小问题;它从根本上破坏了几类算法的逻辑:

  • ​​基于距离的方法:​​ 像 ​​k-最近邻(k-NN)​​ 这样根据一个点的邻居对其进行分类的算法,会变得完全有偏见。“最近”将仅仅意味着“沿高范围特征轴方向最近”。同样,像 ​​k-均值(k-means)​​ 或​​层次聚类​​这样的聚类算法,也几乎完全基于这些主导特征来划分边界。一个优美而具体的例子表明,仅仅重新缩放一个特征就可以完全颠覆 Ward 方法找到的“自然”聚类,这证明了所发现的结构是单位的人为产物,而非数据内在关系的体现。

  • ​​核方法:​​ 对于像使用​​径向基函数(RBF)核​​ k(x,x′)=exp⁡(−γ∥x−x′∥2)k(\mathbf{x},\mathbf{x}')=\exp(-\gamma \|\mathbf{x}-\mathbf{x}'\|^2)k(x,x′)=exp(−γ∥x−x′∥2) 的​​支持向量机(SVM)​​这样的方法,问题变得更加微妙。这个核函数作为一种软性的相似性度量:如果两点很近,它们的相似性接近 111;如果它们很远,相似性则接近 000。但是,如果某个未经缩放的特征使得几乎任意两个不同点之间的距离 ∥x−x′∥2\|\mathbf{x}-\mathbf{x}'\|^2∥x−x′∥2 都变得巨大,那么几乎每一对点的核函数值都会骤降至零。模型会变得盲目,视所有数据点与其它任何点都无限遥远。由此产生的核矩阵是 SVM 计算的基础,它会变得数值不稳定且呈病态,从而导致模型毫无用处。 已经有研究优雅地证明了 SVM 并非尺度不变的;一个简单的思想实验揭示,将一个特征缩放因子 α\alphaα 可以直接导致几何间隔也缩放 α\alphaα 倍,从而扭曲了“最优”边界。

创建公平竞技场:缩放的方法

为了解决这个问题,我们不想丢弃信息。我们希望重新表达信息,以便所有特征都能以相当的声音说话。有几种方法可以做到这一点,每种方法都有其自身的理念。

  • ​​标准化(Z-score):​​ 这是特征缩放的主力方法。对于每个特征,我们减去其均值(μ\muμ)并除以其标准差(σ\sigmaσ):

    z=x−μσz = \frac{x - \mu}{\sigma}z=σx−μ​

    标准化之后,每个特征的均值都为 000,标准差为 111。我们所问的问题不再是“这个值是多少开尔文?”,而是“这个值偏离平均值多少个标准差?” 这将所有特征转换成一种通用的、无单位的统计“异常性”度量,从而实现公平比较。

  • ​​归一化(Min-Max 缩放):​​ 这种方法将每个特征重新缩放到一个固定的范围,通常是 [0,1][0, 1][0,1],通过减去最小值并除以其范围:

    x′=x−xmin⁡xmax⁡−xmin⁡x' = \frac{x - x_{\min}}{x_{\max} - x_{\min}}x′=xmax​−xmin​x−xmin​​

    这里的直觉是,将每个值表示为其在该特征的观测范围内的相对位置。

虽然它们看起来相似,但两者之间的选择很重要。Min-Max 缩放由两个点——绝对最小值和最大值——定义,这使其对异常值高度敏感。一个异常的数据点就可能导致所有其他数据被压缩到 [0,1][0, 1][0,1] 的一个微小子区间内。而标准化基于均值和标准差,因为它利用了整个分布的信息,所以更加稳健。

这些并非唯一的工具。还有其他方法用于特定目标,例如​​单位范数归一化​​(将每个数据点的向量缩放至长度为 1,这对于方向比大小更重要的算法至关重要)和​​基于秩的归一化​​(用值的秩次替换原始值,使模型对数据的任何单调失真免疫)。每种变换都会引入一种特定的​​不变性​​,这是一种超能力,能使模型对某些类型的数据变化具有稳健性。

超越距离:优化、正则化与可解释性

标准化的美妙之处在于其益处远远超出了基于距离的模型。它深入到模型如何学习以及我们如何解释其学习成果的核心。

  • ​​优化的物理学:​​ 想象一下,您正试图在黑暗中找到一个山谷的最低点。如果山谷是一个完美的圆形碗,您只需沿着最陡的下坡方向走,就能高效地到达谷底。但如果山谷是一个狭长、陡峭的峡谷,直接走下坡会导致您在两壁之间来回反弹,走出一条曲折的之字形路径。

    这正是​​梯度下降​​优化器在模型的“损失景观”中导航时所做的事情。未经缩放的特征会产生一个被拉伸的、类似峡谷的景观。通过标准化特征,我们使景观更接近球形,就像一个碗。这在数学上由问题的 Hessian 矩阵的​​条件数​​(κ\kappaκ)来描述,它是衡量景观拉伸程度的指标。标准化显著降低了条件数,使得基于梯度的优化器能够更快、更可靠地收敛。

  • ​​正则化的公平性:​​ 像 ​​Ridge (ℓ2\ell_2ℓ2​)​​ 和 ​​LASSO (ℓ1\ell_1ℓ1​) 回归​​这样的技术对于防止过拟合至关重要。它们通过在模型的目标函数中增加一个惩罚项来实现这一点,该惩罚项不鼓励大的系数值。但这个惩罚对尺度是盲目的。一个以大单位度量的特征(例如,以美元计的房价)自然需要一个微小的系数才能产生影响,而一个以小单位度量的特征(例如,卧室数量)则需要一个较大的系数。正则化惩罚会不公平地惩罚卧室特征的较大系数,可能将其缩小到零,不是因为它不重要,而仅仅是因为其任意的单位。标准化将所有系数置于一个公平的竞争环境中,确保惩罚是根据真实的预测能力公平地施加的。这对于通过将不重要系数一直缩小到零来进行特征选择的 LASSO 尤为关键。

  • ​​解释的清晰性:​​ 标准化使模型的结果更容易理解。

    • 对于一个在标准化数据上拟合的模型,截距项(β0\beta_0β0​)获得了一个清晰的含义:它代表了模型对一个完全“平均”的个体(其所有特征都处于均值水平)的预测。
    • 系数(βj\beta_jβj​)变得可以直接比较。现在,每个系数代表相应特征发生一个标准差变化时,结果的变化量。这使您可以根据特征的“效应大小”对其进行排序,从而提供了一个更有意义的相对重要性比较。

黄金法则:禁止信息泄露

也许关于标准化最关键且最常被违反的原则不是是否要做,而是何时和如何做。一个常见且灾难性的错误是在将数据集分割成训练集和测试集之前,对整个数据集进行标准化。

这是一种​​信息泄露​​。均值和标准差是数据集的属性。通过在完整数据集上计算它们,您就允许了关于测试集分布的信息“泄露”到您训练数据的转换过程中。您的模型实际上偷窥了它本应被评估的数据。这会导致过于乐观的性能估计,这些估计在现实世界中是站不住脚的。

正确且不可侵犯的程序是,将标准化参数视为您正在学习的模型的一部分:

  1. 首先​​将您的数据分割​​成训练集和测试集。
  2. ​​拟合缩放器:​​ ​​仅使用训练数据​​计算均值(μ\muμ)和标准差(σ\sigmaσ)。
  3. ​​转换数据:​​ 应用这个相同的缩放器(使用从训练集学到的参数)来转换训练集和测试集。

这个过程模仿了一个真实场景:您基于过去的数据构建一个模型,然后部署那个固定的、“冻结的”模型来对新的、未见过的数据进行预测。流水线中的每一步,从脑电图(EEG)信号中的伪影去除到特征缩放,都必须仅在训练集上学习,然后应用于测试集,以确保对模型能力进行诚实的评估。

归根结底,特征标准化不仅仅是一项技术杂务。它是一条体现公平的基本原则,确保我们的算法能够倾听数据中所有的声音。它是一座桥梁,连接了我们数据的几何形态、优化的力学原理以及解释的清晰性,揭示了机器学习实践中一种美妙的统一性。

应用与跨学科联系

在我们完成了特征标准化原理的探索之后,您可能会留下一个挥之不去的问题:这仅仅是一种数学上的讲究,是数据科学家的一些深奥的内务整理工作吗?答案是响亮的“不”。不进行标准化,就好比要求一个管弦乐队演奏一首交响乐,其中小提琴按一个标准调音,大提琴按另一个标准调音,而铜管乐器组则在读另一个调的乐谱。结果将是不和谐的噪音。对于一个在数据中寻找和谐模式的机器学习算法而言,处理未经缩放的特征同样会导致灾难。

标准化是创造一种通用语言、一个通用音叉的行为,它允许算法根据每条信息自身的价值来权衡,而不是根据其测量的任意单位。让我们跨越广阔的科学技术领域,探索这个简单想法所带来的美丽而常常令人惊讶的后果。

几何、距离与数据中的真实形态

许多算法的核心是几何的。它们在一个由特征定义的高维空间中导航,其成功取决于一个有意义的“距离”或“方向”概念。没有标准化,这种几何结构会变得无可救药地扭曲。

考虑一位病理学家的工作,他正在训练一个人工智能,根据显微镜图像对癌细胞进行分类。人工智能被赋予了每个细胞的两个特征:细胞核面积,可能以数百平方微米为单位,以及一个微妙的纹理值,一个介于 0 和 1 之间的无量纲数。如果我们让一个像 kkk-最近邻(k-NN)这样的简单算法去寻找“相似”的细胞,它会做什么?它计算的欧几里得距离 (Δ面积)2+(Δ纹理)2\sqrt{(\Delta \text{面积})^2 + (\Delta \text{纹理})^2}(Δ面积)2+(Δ纹理)2​ 将完全由细胞核面积主导。面积的微小变化会比纹理可能的最大变化产生更大的“距离”。算法在其对数字的盲目服从中,实际上将完全忽略纹理信息。通过对特征进行标准化——例如,通过将每个特征用其自身的标准差(z-score)来表示——我们改变了问题。我们不再问“哪些细胞在绝对单位上是接近的?”,而是问“哪些细胞在其典型的生物学变异方面是相似的?”突然之间,纹理变得重要了,算法可以学到一个更丰富、更准确的细胞相似性概念。

这一原则延伸到我们试图发现数据本身基本结构的努力中。想象一下,您是一位生物信息学家,正在研究来自一组癌症患者的数千个基因,希望找到驱动疾病的关键遗传活动模式。主成分分析(PCA)是实现这一目标的有力工具,它旨在找到数据中变异的“主方向”。如果您将 PCA 应用于原始基因表达数据,您会发现什么?很可能,第一个主成分将仅仅指向方差最高的基因的方向。这可能是一个天生不稳定的基因,或者只是其测量技术产生了较大的数值。这是一个伪影,而不是一个发现。

然而,如果我们首先将每个基因的表达标准化为单位方差,奇妙的事情就发生了。PCA 不再作用于原始的协方差矩阵,而是作用于*相关矩阵。目标从寻找最大方差的方向转变为寻找协同*变化的基因系统。现在,主成分揭示了潜在的通路和共调控网络,这些才是生物学的真正引擎。我们已经从观察声音最大的乐器,转变为聆听整场交响乐。

公平性、稳定性与构建稳健模型的艺术

当我们构建预测模型时,尤其是在医学或物理学等高风险领域,我们希望它们不仅准确,而且稳定,并且公平地对待我们提供给它们的信息。在这里,标准化从有益变成了不可或缺。

许多复杂的模型,从用于放射组学预测肿瘤侵袭性的模型 到用于核物理学预测原子核质量的模型,都使用一种称为正则化的技术。可以把它看作一个“简单性预算”。为了防止模型变得异常复杂并拟合数据中的随机噪声,我们在目标函数中增加一个惩罚项,该惩罚项不鼓励大的系数值。最著名的两种是 LASSO(ℓ1\ell_1ℓ1​)惩罚 λ∑j∣βj∣\lambda \sum_j |\beta_j|λ∑j​∣βj​∣ 和 Ridge(ℓ2\ell_2ℓ2​)惩罚 λ∑jβj2\lambda \sum_j \beta_j^2λ∑j​βj2​。

现在,想象一个使用两个特征来预测肿瘤侵袭性的模型:以立方毫米为单位的肿瘤体积(一个数千级别的数字)和一个无量纲的形状比(一个 2 左右的数字)。为了在模型的输出中产生给定的变化,体积特征只需要一个微小的系数 β体积\beta_{\text{体积}}β体积​,而形状特征则需要一个大得多的系数 β形状\beta_{\text{形状}}β形状​。正则化惩罚只看大小 ∣βj∣|\beta_j|∣βj​∣,会更严厉地惩罚形状特征,仅仅因为其自然尺度需要一个更大的系数。它甚至可能完全从模型中被剔除,不是因为它不相关,而是因为它说着一种不同的数值语言。

标准化通过将所有特征置于一个共同的尺度上解决了这个问题。由此产生的系数现在反映了特征在标准差变化一个单位时的重要性,这是一个“可比较影响”的单位。现在惩罚被公平地应用,模型可以对哪些特征真正重要做出诚实的判断。这不仅仅关乎公平性,还关乎稳定性。训练这些模型的基于梯度的算法,当损失函数的景观是一个平缓的碗而不是一个陡峭、狭窄的峡谷时,收敛会更加可靠,而标准化正是通过使底层问题更良态(better conditioned)来直接实现这一转变的。

超越线性:核与复杂交互世界中的缩放

标准化的力量并不仅限于线性模型。事实上,当我们进入非线性技术的世界,如核主成分分析(KPCA)时,其重要性可能会被放大。这些方法通过一个核函数将我们的数据隐式地映射到一个极其高维的特征空间,从而获得其强大的能力。

一个常见的选择是多项式核,它根据特征向量的内积计算相似性:k(x,y)=(x⊤y+c)dk(\mathbf{x}, \mathbf{y}) = (\mathbf{x}^\top \mathbf{y} + c)^dk(x,y)=(x⊤y+c)d。这个计算的核心是 x⊤y=∑ixiyi\mathbf{x}^\top \mathbf{y} = \sum_i x_i y_ix⊤y=∑i​xi​yi​ 这一项。和之前一样,如果一个特征的尺度远大于其他特征,它将主导这个总和。但现在,其影响被次数 ddd 指数级地放大了。一个尺度是另一个特征 10 倍的特征,可能会对核值贡献 102d10^{2d}102d 倍之多。核方法旨在发现的丰富的非线性模式被丢失了,完全被那个声音最大的特征所掩盖。通过先进行标准化,我们确保了内积能够反映数据的真实相关性结构,从而让 KPCA 能够揭示其中隐藏的微妙、弯曲的流形和复杂关系。

从预测到行动与防御:前沿技术

缩放的原则延伸到了人工智能最前沿的领域,塑造了机器如何学习行动和自我防御。

考虑一家现代医院部署一个上下文赌博机算法,如 LinUCB,为患者个性化治疗建议。这个人工智能从经验中学习,平衡对过去效果良好的治疗方案的“利用”(exploitation)和对其他选项的“探索”(exploration),以判断它们是否对某些患者更优。它探索的决定由其不确定性引导。这种不确定性由一个置信椭球体表示,其形状由它所见的患者数据(上下文)决定。如果一个患者特征,比如一个综合风险评分,具有非常大的数值尺度,算法的置信椭球体将沿着该维度迅速收缩。算法会很快对该特征的作用变得过分自信,导致它过早停止为具有不同风险评分的患者探索不同的治疗方案。这可能导致它满足于一个次优策略。对患者特征进行标准化可确保更具各向同性和更谨慎的探索,让人工智能能够更稳健、更安全地学习——当患者的治疗结果攸关性命时,这是一个关键特性。

最后,在一个人工智能系统日益部署于对抗性环境的时代,标准化甚至可以成为一种防御工具。想象一个对手试图通过向线性分类器的输入特征添加一个微小的扰动 δ\deltaδ 来欺骗它 [@problem_-id:3097058]。如果这些特征通过一个具有自身缩放机制的接口暴露给外界,那么系统的脆弱性就不是均匀的。一个在接口处被“缩小”的特征可能成为一个弱点;外部一个微小、允许的扰动可以转化为内部一个巨大、有影响力的扰动,从而颠覆分类器的决策。通过理解这一点,我们可以扭转局势。我们可以刻意选择缩放因子,以均衡来自每个特征的“对抗性贡献”,从而确保没有易于攻击者利用的薄弱环节,有效地加固我们的系统。

从病理学实验室的安静走廊到临床人工智能的动态决策,特征标准化展现出自己是一个深刻而统一的原则。它是确保一个公平竞争环境、一种通用语言的简单而优雅的行为,让算法能够倾听数据试图讲述的故事,而不受人类任意测量的扭曲。它优美地提醒我们,在探求知识的过程中,我们如何构建问题与我们用何种方法来回答问题同等重要。