try ai
科普
编辑
分享
反馈
  • 非参数回归

非参数回归

SciencePedia玻尔百科
核心要点
  • 非参数回归利用局部平均来模拟复杂关系,让数据自身定义函数形状,而无需预先设定严格的假设。
  • 该方法的灵活性由一个平滑参数(如带宽)控制,该参数管理着欠拟合与过拟合之间基本的偏差-方差权衡。
  • 其主要局限是“维度灾难”,即所需数据量随预测变量数量的增加而呈指数级增长。
  • 其核心原理在多种应用中均有体现,从科学数据去噪、金融衍生品定价,到构成现代人工智能中注意力机制的基础。

引言

在数据分析中,我们常常默认使用线性回归等简单模型,但当现实拒绝符合直线时,会发生什么呢?将复杂的非线性关系强行纳入一个僵化的结构会导致模型设定错误,使我们的结论建立在对事实的有缺陷的近似之上。这就提出了一个根本性问题:我们能否构建足够灵活的模型,让数据自己说话,揭示其潜在模式,而不受我们假设的束缚?

本文全面探讨了非参数回归,这是一类为实现此目标而设计的强大技术。我们将首先考察超越参数化建模的核心思想。在“原理与机制”一章中,您将学习核平滑和样条等方法的工作原理,理解关键的偏差-方差权衡,并直面困扰这些灵活方法的臭名昭著的“维度灾难”。随后,“应用与跨学科联系”一章将带您穿越不同领域——从生物信息学、金融学到人工智能前沿——见证非参数回归的原理如何为现实世界的问题提供优雅的解决方案。

原理与机制

当直线不再适用

想象你是一位科学家、经济学家或工程师。你的工作是理解两个量之间的关系,比如说,水温和珊瑚礁的生长速率。最简单、最历史悠久的方法是在数据点中画一条直线。你拟合一个像 Y=β0+β1XY = \beta_0 + \beta_1 XY=β0​+β1​X 这样的模型,其中 YYY 是生长速率, XXX 是温度。这就是​​参数回归​​的世界。我们假设这种关系具有特定的形式(一条直线),由少数几个参数(截距 β0\beta_0β0​ 和斜率 β1\beta_1β1​)定义。

但如果世界并非如此简单呢?如果珊瑚礁在某个特定温度下生长旺盛,但如果温度过高或过低都会受到影响呢?一条直线是对这种现实糟糕的描述。如果我们坚持使用线性模型,我们估计出的斜率 β1\beta_1β1​ 又意味着什么呢?它并不代表温度的“真实”效应,因为根本不存在单一的真实效应!相反,模型给了我们别的东西:对真实的、弯曲关系的最佳可能直线近似。它是那条平均而言最接近那条弯曲真相的直线。正如一个真实关系是正弦波的模拟所示,线性模型会在数据中画出一条平坦而无用的线,即使有大量数据,也几乎无法解释任何变异。

这是一个深刻且常被忽视的观点。当我们的模型是错误的时(统计学家称之为​​模型设定错误​​),我们的参数并不是在估计真相;它们是在估计那个最佳拟合但仍然是错误的模型的参数。这应该让我们感到不安。这应该让我们反思:我们能做得更好吗?我们能否建立一个不把复杂现实强行塞入预定义简单形状的模型?我们能让数据自己说话吗?

邻近点的智慧

答案是响亮的“是”,其核心思想异常简单:​​局部平均​​。我们不用所有数据来拟合一个单一的全局模型,而是在任何给定点,仅通过观察其附近的数据点来估计关系。

想象一下,你想预测在温度为 25∘C25^{\circ}\text{C}25∘C 时的珊瑚生长速率。最明智的做法是查看你在接近 25∘C25^{\circ}\text{C}25∘C 的温度下(比如在 24∘C24^{\circ}\text{C}24∘C 到 26∘C26^{\circ}\text{C}26∘C 之间)观察到的生长速率,并取其平均值。如果你对每个可能的温度都这样做,沿着x轴滑动你的观察“窗口”,你将描绘出一条遵循数据局部趋势的曲线。这就是​​非参数回归​​的精髓。

这个直观的想法可以被形式化为一个著名的技术,称为​​Nadaraya-Watson 核估计器​​。在点 xxx 处的预测是所有观测值 YiY_iYi​ 的加权平均:

m^(x)=∑i=1nwi(x)Yi\hat{m}(x) = \sum_{i=1}^{n} w_i(x) Y_im^(x)=i=1∑n​wi​(x)Yi​

但这些权重 wi(x)w_i(x)wi​(x) 是什么呢?对于一个数据点 (Xi,Yi)(X_i, Y_i)(Xi​,Yi​) ,如果它的 XiX_iXi​ 接近我们的目标点 xxx,它的权重就应该大;如果远,就应该小。我们可以使用一个“核函数” KKK 来实现这一点,它只是一个以零为中心的光滑、对称的“鼓包”(就像高斯分布的钟形曲线)。点 iii 的权重则由这个核生成:

wi(x)=K(x−Xih)∑j=1nK(x−Xjh)w_i(x) = \frac{K\left(\frac{x-X_i}{h}\right)}{\sum_{j=1}^{n} K\left(\frac{x-X_j}{h}\right)}wi​(x)=∑j=1n​K(hx−Xj​​)K(hx−Xi​​)​

项 x−Xix-X_ix−Xi​ 衡量了从我们的目标点到数据点 XiX_iXi​ 的距离。参数 hhh 被称为​​带宽​​,它控制着核的“宽度”——它定义了我们所谓的“邻近”。小的 hhh 意味着我们只给非常近的点显著的权重,而大的 hhh 意味着我们在一个更宽的邻域内进行平滑。

事实证明,这个直观的公式不仅仅是一个聪明的技巧。它可以通过从估计 (X,Y)(X,Y)(X,Y) 的联合概率密度开始,然后从该密度估计中计算条件期望 E[Y∣X=x]E[Y|X=x]E[Y∣X=x] 来正式推导。该推导的结果恰好就是 Nadaraya-Watson 公式。这是数学统一性的一个美丽体现:局部加权平均的直观思想,正是遵循概率论严格规则时所得到的结果。

平滑的艺术:偏差-方差权衡

核回归的强大功能带来了一个关键的选择:如何设置带宽 hhh?这不仅仅是一个技术细节;它是控制基本​​偏差-方差权衡​​的旋钮。

  • ​​小带宽 (hhh):​​ 如果你让 hhh 非常小,你的邻域就非常小。在任何一点的估计都只基于它旁边少数几个数据点。这意味着得到的曲线将非常“曲折”和跳跃,试图追逐数据中的每一个微小波动。这种拟合具有​​低偏差​​(它可以紧密地跟随真实曲线),但​​高方差​​(如果你换一个新数据集,拟合结果会看起来完全不同)。这就像一个紧张的学生试图“连点成线”。

  • ​​大带宽 (hhh):​​ 如果你让 hhh 非常大,你的邻域就非常大。在任何一点的估计都是许多数据点的平均值,包括那些非常远的点。得到的曲线将非常平滑,甚至可能接近一条直线。这种拟合具有​​低方差​​(它很稳定,不会随新数据集而大变),但​​高偏差​​(它“过度平滑”了数据,会错过真实曲线所有有趣的局部特征)。这就像模拟案例中,巨大的带宽使得灵活的核模型表现得像一个糟糕的线性模型一样。

所以,我们面临一个“金发姑娘”问题。我们需要一个恰到好处的带宽。理论告诉我们,存在一个最优带宽,可以最小化总误差(偏差平方和方差之和)。值得注意的是,对于一个相当平滑的真实函数,这个最优带宽随着样本量 nnn 的增加而缩小,其特定速率为 n−1/5n^{-1/5}n−1/5。这不仅仅是一个经验法则;它是平滑数学理论的一个深刻结果。在实践中,统计学家使用诸如​​交叉验证​​之类的自动化方法,直接从数据中找到一个好的带宽,实际上是让数据本身决定正确的平滑程度。

另一种哲学:样条的力量

核回归并不是“让数据说话”的唯一方式。另一种强大的方法是使用​​样条​​。要理解样条,最好先明白什么不该做:拟合一个高次多项式。

你可能会想,如果一条直线(1次多项式)太简单,为什么不试试20次多项式呢?这似乎更灵活。但这种方法在实践中是一场灾难。高次多项式是出了名的行为不端。它们本质上是“全局”的,意味着单个数据点可能对远处拟合产生奇异的影响。它们倾向于剧烈振荡,尤其是在数据边缘附近——这一现象与数值分析中著名的​​龙格现象​​密切相关。此外,基函数 {1,x,x2,…,x20}\{1, x, x^2, \dots, x^{20}\}{1,x,x2,…,x20} 彼此看起来非常相似,使得估计它们的系数在数值上不稳定。

样条提供了一个绝妙的解决方案。样条是一串低次多项式(通常是三次)在称为​​节点​​的点上平滑地连接而成。我们不是用一个全局的、弯曲的函数,而是用许多简单的、局部的函数拼接在一起。这种方法本质上是局部的,并且稳定得多。通过在整个数据范围内放置节点,样条可以调整其形状以跟随数据的局部趋势。

此外,特殊类型的样条解决了特定的问题。例如,​​自然样条​​被约束在边界节点之外是线性的。这迫使拟合在边缘处保持平稳和良好行为,驯服了困扰全局多项式的剧烈振荡。使用一种巧妙的表示样条的基,称为​​B样条​​,也解决了数值不稳定性问题,因为每个B样条基函数仅在一个小的局部区域内非零。

黑暗的降临:维度灾难

到目前为止,我们描绘了一幅美好的画面。非参数方法似乎是灵丹妙药,将我们从线性模型的僵化假设中解放出来。但它们有一个可怕的阿喀琉斯之踵,一个如此深刻以至于被赋予了一个戏剧性名称的问题:​​维度灾难​​。

我们对“局部”和“邻近”的直觉来自于我们在一个、两个或三个维度中的经验。在这些低维空间中,数据相对密集。但是,随着预测变量数量(维度 ddd)的增加,空间变得广阔而空旷。

让我们重新审视我们的“局部邻域”概念。假设我们有 n=100,000n=100,000n=100,000 个均匀散布在超立方体中的数据点。我们希望我们的邻域足够大,以平均包含至少30个点,从而使我们的局部平均值稳定。

  • 如果我们只有​​两个预测变量​​ (d=2d=2d=2),一个简单的计算表明,我们的邻域“盒子”的边长只需要大约 0.0170.0170.017。这真正是局部的;它只是我们数据空间中的一个小方块,所以我们的平均值是基于真正的邻居的。
  • 现在,如果我们有​​100个预测变量​​ (d=100d=100d=100) 呢?为了捕获同样的那30个点,我们的邻域“超立方体”需要大约 0.920.920.92 的边长!这在任何有意义的层面上都不再是局部的。这个邻域几乎跨越了数据在每个维度上的整个范围。我们的“局部”平均实际上是一个近乎全局的平均。所有点都彼此“遥远”,邻域的概念崩溃了。

这不仅仅是一个奇特的例子;它是一个根本性的危机。理论证实了这一严峻的图景。为了保持恒定的预测误差水平,所需的样本量 nnn 必须随维度 ddd 指数级增长。如果你需要100个数据点来为一个预测变量达到一定的精度,那么对于两个预测变量,你可能需要 1002=10,000100^2=10,0001002=10,000 个,而对于十个预测变量,则需要一个天文数字 10010100^{10}10010。这种对数据的指数级需求使得大多数非参数方法在处理有几十或几百个原始预测变量的问题时变得不切实际。

这个灾难也适用于建模​​交互作用​​。虽然参数模型假设一个非常具体、通常是简单的交互形式(例如,温度的影响随污染物水平线性变化),非参数模型原则上可以捕捉到一个复杂的现实,即这个变化率本身就是一个复杂的非线性曲面。这非常强大,但要求我们在更高维度上估计一个函数,这又把我们直接扔回了维度灾难的利齿之中。

回报:洞察力与诚实的不确定性

如果这些方法如此困难,最终的回报是什么?答案是双重的:更深入的解读和更诚实的不确定性量化。

非参数回归给你的是一幅图画,而不仅仅是一个数字。你得到的不是一个单一的斜率系数,而是一张估计函数 m^(x)\hat{m}(x)m^(x) 的图。你可以看到关系在哪里是平坦的,在哪里是陡峭的,以及在哪里发生了转折。这是一种比从你甚至不相信其假设的线性模型中得到的单个数字丰富得多的解读形式。

此外,我们如何表达我们对这条估计曲线的信心?我们可以使用一个非常直观且计算能力强大的思想,称为​​自助法 (bootstrap)​​。这个名字来源于短语“to pull oneself up by one's bootstraps”(靠自己的力量振作起来),而它正是这样做的。为了模拟我们数据收集过程的不确定性,我们通过从原始数据中进行有放回抽样,重复地抽取新的“自助”数据集。对于每个自助数据集,我们重新拟合我们的非参数曲线。在这样做数百或数千次之后,我们就得到了一整套可能的曲线。然后我们可以总结这个集合,围绕我们的原始估计形成一个​​置信带​​——一个我们有(比如说)95%的信心认为包含真实底层函数的区域。这是一种不确定性的度量,它再次不依赖于参数统计的僵化假设。

这引出了最后一个微妙的观点。​​预测​​和​​推断​​(解读和不确定性)的目标并不总是一样的。

  • 为了获得最好的预测结果,我们可能会选择一个能最佳平衡偏差和方差的平滑参数。
  • 为了得到一个具有正确95%覆盖率的统计上“有效”的置信带,我们可能需要对数据进行欠平滑(使用比预测最优值更小的 hhh)以使偏差可以忽略不计。

这个区别至关重要。它告诉我们,没有单一的“最佳”模型,只有针对特定目的的最佳模型。非参数回归提供了一个灵活而强大的工具包,但就像任何强大的工具一样,它要求我们仔细思考我们试图回答的问题是什么。我们是想预测未来,还是理解现在?答案将引导我们在让数据自己说话的美丽而复杂的世界中前行。

应用与跨学科联系

我们花了一些时间探讨非参数回归的原理,学习了如何在建模中保持“谦逊”,让数据本身决定关系的形态。这是一个强大而解放思想的理念。但这种自由会引领我们走向何方?它仅仅停留在纯粹的数学好奇心层面,还是为解决现实世界的问题打开了大门?是时候踏上征程,看看这个理念能带我们走多远了。我们会发现它不仅存在于一个领域,而是遍及多个领域,常常像一条统一的线索,连接着看似不相关的人类探究领域。

科学家的工具箱:于噪声中寻信号

每个实验科学家都深知噪声带来的挫败感。你的仪器不完美,你的生物样本存在变异,你所寻求的纯净信号被埋没在随机波动的海洋中。数据分析的一项核心任务就是轻轻拂去这层噪声,以揭示其下的真相。非参数回归是完成此任务最优雅的工具之一。

想象你是一位研究温度如何影响一种新发现细菌生长速率的微生物学家。你在不同温度下培养这种生物,并测量其分裂速率。得到的数据点形成一团散点云;然而,根据生物学原理,你深知必然存在一条平滑的潜在曲线,它会上升至一个最适温度(ToptT_{\text{opt}}Topt​),然后随着热量变得致命而急剧下降。你如何找到这个最适温度?你可以尝试将数据强行拟合成一个预设的形状,比如抛物线,但大自然很少如此简单。像LOESS这样的非参数平滑器提供了一种更好的方法。它不假设任何特定形状。相反,它在数据上滑动一个窗口,拟合简单的局部模型,并将它们拼接起来,描绘出最可能的曲线。数据本身得以“绘制”出增长轮廓。一旦这条平滑曲线 μ^(T)\hat{\mu}(T)μ^​(T) 被揭示出来,找到关键温度就变得轻而易举:ToptT_{\text{opt}}Topt​ 就是曲线上峰值处的温度,而 Tmin⁡T_{\min}Tmin​ 和 Tmax⁡T_{\max}Tmax​ 则是曲线与零交叉的点。

这种使用灵活平滑器去除实验假象的想法是一个反复出现的主题。在生物信息学中,思考一下DNA微阵列的分析,这是一种用于同时测量数千个基因表达水平的技术。在一种常见的设置中,“对照”样本用绿色染料标记,“处理”样本用红色染料标记,然后将它们混合在一起。每个基因的红绿光比率告诉我们其表达是否发生了变化。然而,染料可能并不完美;它们的亮度可能以一种复杂的非线性方式依赖于整体信号强度。这种乘性误差可能会伪装成生物学效应。当我们将强度的对数比率(MMM)对平均对数强度(AAA)作图时,这种系统性偏差会以一条令人沮丧的香蕉形曲线的形式显现出来。大部分基因的表达应该没有变化,所以点云应该集中在 M=0M=0M=0 这条线上。通过认识到原始尺度上的乘性误差在对数尺度上变成了加性误差,我们看到了一条前进的道路。我们可以对MA图的中心趋势拟合一个非参数回归,例如LOWESS,然后简单地从所有数据点中减去这个学习到的偏差曲线。这优雅地拉平了“香蕉”,校正了假象,从而实现了基因表达的真实比较。

随着最新一代生物技术的出现,挑战变得更加严峻。现代多组学分析可以测量成千上万个单细胞内基因的活性(scRNA-seq)及其调控“增强子”元件的活性(scATAC-seq)。通过沿着发育路径使用“伪时间”坐标对这些细胞进行排序,我们可以尝试理解驱动细胞分化的精确事件序列。但来自每个单细胞的数据极其稀疏且充满噪声——更像一把零散的萤火虫,而非一幅清晰的图画。在这里,非参数回归再次成为关键。我们可以为增强子可及性和基因表达拟合关于伪时间的光滑轨迹,通过对许多细胞进行平均来去噪信号。一旦我们有了这些平滑曲线,我们就可以提出复杂的问题。例如,增强子是否在其靶基因开启之前变得活跃?我们可以通过计算两条平滑曲线之间的时滞互相关来回答这个问题,找到给出最佳对齐的时间偏移量 τ\tauτ。这使我们能够从最初一堆嘈杂的静态快照中,重建出基因组调控的动态影片。

高维的危险与希望

现在让我们从揭示信号转向预测任务。在经济学中,我们可能想根据一家公司的一系列属性——其收入、债务、市场份额等——来对其进行估值。一个简单的线性模型通常过于僵化,无法捕捉这些因素之间复杂的相互作用。我们可以转而使用一个更灵活的模型,比如三次样条。样条是一项工程奇迹:它是一条高度灵活的曲线,通过拼接简单的部分(即三次多项式)构建而成。通过在不同点放置“节点”,我们允许曲线弯曲和适应,从而拟合数据中复杂的模式,同时保持平滑和良好的行为。这将非参数问题转化为在一个巧妙的基函数集(如截断幂基)上的线性回归,使其在计算上变得可行。

但一个幽灵始终困扰着这项事业:“维度灾难”。当属性数量 ddd 变得很大时会发生什么?想象一下试图根据数百个因素为一家公司估值。我们的数据点,生活在一个 ddd 维空间中,变得异常孤立。空间的体积随 ddd 呈指数增长,因此我们的公司样本变成了广阔空旷宇宙中稀疏的尘埃。依赖于平均邻近点的局部方法会失效,因为查询点的“最近邻”在绝对意义上可能非常遥远。为了保证我们的估值函数达到一定的精度 ε\varepsilonε,所需的样本公司数量 nnn 可能会呈指数级增长,数量级为 (1/ε)d(1/\varepsilon)^d(1/ε)d。基于网格的数值方法也会失败,因为即使每个维度只有10个点的粗糙网格,也需要 10d10^d10d 个总点来进行评估。

有没有办法驾驭这个灾难?我们无法消除它,但我们有一个极其聪明的技巧。考虑构建一个包含所有特征之间直至某个 mmm 次的交互项的模型。这些特征的数量会呈组合爆炸式增长。我们可以使用​​核技巧​​,而不是为每个数据点显式地构建这个巨大的特征向量。像支持向量机和高斯过程回归这样的方法,不是对特征本身进行操作,而是对数据点之间的内积(或“相似性”)进行操作。一个核函数,例如多项式核或高斯核,可以在一个极高维度——甚至是无限维度——的特征空间中计算这个内积,而无需实际创建特征向量。这使我们能够构建极其复杂的模型,而主要的计算成本则与样本数量 nnn 成比例,通常为 O(n2)\mathcal{O}(n^2)O(n2) 或 O(n3)\mathcal{O}(n^3)O(n3),而不是特征空间的维度。这是整个机器学习领域最美妙、影响最深远的想法之一。

统一的线索:同样思想,无处不在

一旦你开始寻找,你会发现在最意想不到的地方,都存在着非参数回归的核心思想——将灵活的函数拟合到数据中。

在进化生物学中,科学家利用基因序列重建一个物种或病毒的人口统计历史。溯祖理论告诉我们,当我们回溯时间时,世系如何合并,而这些合并之间的等待时间取决于有效种群大小 Ne(t)N_e(t)Ne​(t)。像贝叶斯“Skyride”或“Skygrid”这样的方法通过将 Ne(t)N_e(t)Ne​(t) 视为一个未知的平滑函数来估计其整个轨迹。它们设置了一个先验,该先验惩罚种群规模对数的巨大、突变,实际上是假设人口统计历史是相对连续的。这种非参数先验使得基因数据本身能够揭示过去的形态,突显出古代的瓶颈或像病毒流行病中看到的爆炸性扩张。

在数理金融这个高风险世界中,非参数回归构成了为复杂金融衍生品定价的算法的隐藏引擎。这类工具的价值通常是一个棘手的方程——半线性抛物型偏微分方程——的解。著名的Feynman-Kac公式提供了一个神奇的联系:它表明这个解也可以通过模拟标的资产的许多可能未来路径,并使用倒向随机微分方程(BSDE)计算一种特殊的期望来找到。数值求解这个BSDE涉及时间上的后向步进,在每一步,都必须计算一个条件期望。这是一个回归问题!在高维度下,传统网格方法失效,这个问题通过最小二乘蒙特卡洛(LSMC)解决,这正是在资产价格的基函数上进行的非参数回归。整个偏微分方程解的准确性取决于每一步回归的质量。

也许最令人惊讶的现代联系,可以在当前人工智能革命的核心找到。“注意力机制”是驱动像GPT这样模型的Transformer架构的关键组成部分,它可以被理解为一种非参数回归。在其最简单的形式中,注意力计算一组“值”向量的加权平均,其中权重由一个“查询”向量和一组“键”向量之间的相似性决定。这与20世纪60年代的经典非参数方法——Nadaraya-Watson核回归估计器的结构完全相同。用于控制注意力权重锐度的“温度”参数 τ\tauτ 与核带宽直接类似;事实上,对于一种常见的相似性选择,温度就是 τ=2h2\tau=2h^2τ=2h2,其中 hhh 是高斯核带宽。这是一个深刻的启示:一个由统计学家为灵活建模数据而发展的思想,现在已成为能够写诗和编码的模型的基石。

从生物学家的实验室到交易大厅,再到人工智能的前沿,非参数回归的原理证明了其普适的效用。它的力量来自一个简单而深刻的哲学:不要将你的信念强加于世界,而是提供一个足够灵活的框架,让数据讲述自己的故事。