半参数模型

玻尔百科

核心要点

半参数模型将用于关键参数的结构化参数部分与用于讨厌函数的、灵活的、数据驱动的非参数部分相结合。
它们使用巧妙的技术，如代数对消（Cox模型）和几何正交化（部分线性模型），来估计感兴趣的参数，而无需完全指定讨厌函数部分。
当从同一数据中估计两个模型部分时，像交叉拟合（双重机器学习）这样的现代方法对于防止因过拟合而产生的偏差至关重要。
尽管具有灵活性，这些模型通常能以与全参数模型同样的高效率（以 $1/\sqrt{n}$ 的速率）估计关键的参数部分。

引言

在统计建模和机器学习的世界里，简单性与灵活性之间存在着根本性的张力。一方面，参数模型提供清晰、可解释的结果，但可能因过于僵化而无法捕捉现实世界的真实复杂性。另一方面，非参数模型提供了巨大的灵活性，但可能难以解释且容易过拟合。这就产生了一个关键的知识鸿沟：我们如何才能构建既具有稳健结构又具备自适应灵活性的模型？半参数模型作为一种强大的解决方案应运而生，提供了一种“两全其美”的方法。它允许研究人员分离并精确估计他们最关心的参数，同时以数据驱动的方式考虑复杂的、未知的“讨厌”因素。本文旨在为这一优雅的方法论提供指南。在接下来的章节中，我们将首先探讨使这些模型能够巧妙地将信号与噪声分离的核心“原理与机制”。随后，我们将浏览一系列广泛的“应用与跨学科联系”，看看这种方法如何在从医学到机器学习的各个领域提供关键的洞见。

原理与机制

想象你是一名正在侦破复杂案件的侦探。你有一个主要嫌疑人，并且想知道他们的确切角色。然而，现场充满了无数混杂因素，一片混乱的“讨厌”背景掩盖了真相。纯参数方法就像预先认定你的嫌疑人必定使用了三种特定工具中的一种，而忽略了所有其他可能性。这种方法简单直接，但如果真正的工具不在你的清单上，你可能完全错失真相。而完全非参数的方法则像是试图对犯罪现场的每一个原子进行编目。你不会错过任何东西，但你会被数据淹没，无法区分关键线索和无关的灰尘。你可能会看到本不存在的模式，而且你将很难解释你的发现。

半参数模型是大师级侦探的策略。它说：“我将把严谨、结构化的调查集中在我的主要嫌疑人——参数部分上，同时使用一种灵活、开放的方法来解释所有的背景杂波——非参数部分。”这种哲学结合了参数模型的稳健性和可解释性以及非参数模型的灵活性，提供了一种强大的“两全其美”的解决方案。在本节中，我们将揭示使这成为可能的巧妙原理和机制。

忽略讨厌函数的艺术

任何半参数模型的中心挑战都是在不需要知道未知非参数函数确切形式的情况下，估计出感兴趣的参数。这听起来有点像魔术。当一个量与另一个你一无所知的量混合在一起时，你怎么能精确地测量前者呢？答案在于两种优雅的策略：代数对消和几何正交化。

代数对消：Cox模型的巧妙技巧

让我们进入医学和工程领域，在这里一个关键问题常常是“某事发生需要多长时间？”——病人康复、机器零件失效。Cox比例风险模型是这一领域（称为生存分析）的巨擘，其卓越之处恰恰在于其巧妙的半参数设计。

该模型将具有特征 $\mathbf{X}$ 的个体在时间 $t$ 的“风险率”——事件的瞬时风险——描述为：

h(t | \mathbf{X}) = h_0(t) \exp(\boldsymbol{\beta}^T \mathbf{X})

在这里，模型被完美地分开了。 $\exp(\boldsymbol{\beta}^T \mathbf{X})$ 项是参数部分。它告诉我们风险如何被某些因素（如年龄或治疗）倍增，而系数 $\boldsymbol{\beta}$ 是我们迫切想要知道的。另一项 $h_0(t)$ 是基线风险。这是非参数的讨厌函数。它是一个随时间变化的未知的、波动的函数，描述了“基线”个体的风险如何演变。

为了估计 $\boldsymbol{\beta}$ ，David Cox 爵士设计了一种天才方法，使用了所谓的偏似然。该方法不试图预测失败的确切时刻，而是提出了一个简单得多的问题。在观察到一次失败的瞬间，比如在时间 $t_{(i)}$ ，在所有仍然“处于风险中”（即尚未失败或退出研究）的个体中，失败的恰好是这个特定个体的概率是多少？

这个概率是失败者风险与风险集中所有人风险之和的比值。看看我们写出来会发生什么：

\text{Probability} = \frac{h(t_{(i)} | \mathbf{X}_{\text{failed}})}{\sum_{j \in \text{Risk Set}} h(t_{(i)} | \mathbf{X}_j)} = \frac{h_0(t_{(i)}) \exp(\boldsymbol{\beta}^T \mathbf{X}_{\text{failed}})}{\sum_{j \in \text{Risk Set}} h_0(t_{(i)}) \exp(\boldsymbol{\beta}^T \mathbf{X}_j)}

那个讨厌的、未知的基线风险 $h_0(t_{(i)})$ 作为公因子同时出现在分子和分母中。它完美地被消掉了！

\text{Probability} = \frac{\exp(\boldsymbol{\beta}^T \mathbf{X}_{\text{failed}})}{\sum_{j \in \text{Risk Set}} \exp(\boldsymbol{\beta}^T \mathbf{X}_j)}

讨厌函数从方程中消失了。通过将所有观测到的失败事件的这些概率相乘来构造一个“偏”似然，我们就可以找到使之最大化的 $\boldsymbol{\beta}$ 值，而全程无需指定或估计 $h_0(t)$ 的形式。

正交化：清洗数据

在计量经济学和机器学习中普遍存在的另一种强大策略，采用了更几何的视角。考虑部分线性模型：

Y = \mathbf{X}^T\boldsymbol{\beta} + g(Z) + \varepsilon

在这里，我们想估计协变量 $\mathbf{X}$ 的线性效应 $\boldsymbol{\beta}$ ，但我们对 $Y$ 的测量被另一组变量 $Z$ 的某个未知的非线性效应 $g(Z)$ 所混淆。

这里的关键思想是正交化，这一概念由Frisch-Waugh-Lovell定理完美地展示了出来。可以把它想象成“清洗”你的变量。 $g(Z)$ 的影响就像 $Z$ 投射在 $Y$ 和 $\mathbf{X}$ 上的阴影，扭曲了它们之间的真实关系。为了找到 $Y$ 和 $\mathbf{X}$ 之间的纯粹关系，我们必须首先从两者中移除这个阴影。

过程如下：

将 $Y$ 对 $Z$ 进行回归：使用你喜欢的非参数方法（例如，核平滑器，或者如果 $Z$ 是离散的，就用分组均值）来得到条件期望的估计值， $\hat{g}(Z) \approx \mathbb{E}[Y|Z]$ 。残差 $\tilde{Y} = Y - \hat{g}(Z)$ 代表了 $Y$ 中不能被 $Z$ 解释的部分。这是我们“清洗”后的结果。
将 $\mathbf{X}$ 对 $Z$ 进行回归：对回归向量 $\mathbf{X}$ 的每个分量执行相同的操作。估计 $\hat{m}(Z) \approx \mathbb{E}[\mathbf{X}|Z]$ 并计算残差 $\tilde{\mathbf{X}} = \mathbf{X} - \hat{m}(Z)$ 。这是 $\mathbf{X}$ 中与 $Z$ 的影响正交（或不相关）的“清洗”后的部分。
最终回归：最后，对清洗后的结果 $\tilde{Y}$ 和清洗后的协变量 $\tilde{\mathbf{X}}$ 进行简单的线性回归。得到的系数就是我们对 $\boldsymbol{\beta}$ 的估计。

这个过程有效地投射掉了讨厌函数部分，从而可以直接估计感兴趣的参数。用矩阵术语来说，这个过程等同于应用一个“残差生成”矩阵，该矩阵从数据中减去讨厌函数空间的影响。这确保了我们对线性部分的估计在一阶上不受非参数部分的影响。

灵活性的代价及如何支付

这种优雅的关注点分离功能强大，但并非完全是免费的午餐。非参数部分的灵活性引入了其自身的一系列挑战，需要复杂的解决方案。

首先，当我们从同一数据集估计参数和非参数部分时，它们的估计误差可能是相关的。想象一下，我们对波动函数 $\hat{g}$ 的估计在某个区域有点偏高；这个误差可能会“泄漏”过来，导致我们对 $\hat{\boldsymbol{\beta}}$ 的估计有点偏低以作补偿。我们最终预测 $\hat{Y} = \mathbf{X}^T\hat{\boldsymbol{\beta}} + \hat{g}(Z)$ 的总不确定性，不仅取决于 $\hat{\boldsymbol{\beta}}$ 的方差和 $\hat{g}(Z)$ 的方差，还取决于它们的协方差。误差之间的这种复杂舞蹈是半参数估计的一个基本方面。

一种更微妙的危险来自于一种形式的数据“窥探”。在上述的正交化过程中，我们使用数据来学习讨厌函数 $\hat{g}$ 。如果我们接着使用完全相同的数据来通过由 $\hat{g}$ 形成的残差估计 $\boldsymbol{\beta}$ ，我们可能会因为过拟合而引入偏差。讨厌函数 $\hat{g}$ 可能无意中拟合了数据中的一些随机噪声，而这种噪声模式会系统地使我们对 $\boldsymbol{\beta}$ 的最终估计产生偏差。

为了解决这个问题，现代统计学采用了一种称为交叉拟合（或双重机器学习）的强大技术。这个想法简单而深刻。我们将数据分成，比如说，两半。我们使用第一半来估计讨厌函数（ $\hat{g}$ 和 $\hat{m}$ ）。然后，我们使用这些学习到的函数来计算第二半数据上的“清洗后”的残差。接着我们交换数据两半的角色并重复这个过程。通过确保用于估计讨厌函数的数据始终与用于估计最终参数的数据分开，我们打破了过拟合的反馈循环，并获得了一个更诚实、无偏的估计。

最后，我们如何在半参数模型和其更简单的参数表亲之间做出选择？像贝叶斯信息准则（BIC）这样的标准模型选择工具依赖于模型的完整似然。但正如我们所见，Cox模型是使用偏似然来估计的，它处于一个不同的数学尺度上。直接比较来自参数模型（使用完整似然）的BIC和一个从偏似然派生出来的值是一个根本性的错误——这就像比较苹果和橙子。原则上正确的前进方式是，要么在同一家族内比较模型（例如，两个不同的Cox模型），使用一个经过仔细调整的准则，要么通过例如用一个非常灵活的参数形式（如一系列小阶梯）来近似非参数基线风险，然后为所有模型计算完整似然，从而使模型具有可比性。

理论上的胜利：参数速度

在克服了这些挑战之后，我们迎来了半参数理论的最高成就。对于我们通常最关心的参数部分 $\boldsymbol{\beta}$ ，我们常常能达到最佳的估计精度。

在许多半参数模型中，我们估计值 $\hat{\boldsymbol{\beta}}$ 的不确定性（方差）以 $1/n$ 的速率下降，其中 $n$ 是样本大小。这就是所谓的“参数速率”，与我们拟合一个简单的、全参数模型时得到的快速率相同。即使我们同时在估计一个无限复杂的非参数函数 $g$ ，我们也能获得这种卓越的效率。就好像我们能够像有人把真实的函数 $g$ 放在银盘子上递给我们一样，同样好地估计出 $\boldsymbol{\beta}$ 。

这一理论上的胜利是模型设计核心的巧妙正交化的直接结果。通过使 $\boldsymbol{\beta}$ 的估计对我们估计 $g$ 时的一阶误差不敏感，我们将参数部分与非参数部分较慢、更需要数据的收敛过程隔离开来。从机器学习的角度来看，这种结构上的分离使我们能够独立控制两个模型部分的复杂性。模型的整体泛化误差可以清晰地分解为来自参数和非参数部分的附加贡献，为我们提供了独立的、可解释的杠杆来调整以获得最佳性能。这是最终的回报：半参数模型的结构使我们能够分离、解释并高效地估计我们想要理解的那部分世界，同时优雅地考虑了围绕它的复杂现实。

应用与跨学科联系

中庸之道：一个统一的思想

我们已经走过了半参数模型的原理之旅，看到了它们如何优雅地将世界划分为两部分：一部分我们有信心用参数公式的清晰、坚实的线条来描述，另一部分我们则让它自由，由数据来塑造，具有非参数方法的灵活性。这不仅仅是一个统计技巧；它是一种深刻而实用的科学探究哲学。它是中庸之道，是介于僵化理论的贫瘠禁锢与纯数据的混乱荒野之间的一座桥梁。

想象一下构建一个复杂自然现象的模型。纯参数方法就像坚持雕塑必须由一个完美的球体雕刻而成。这很简单，但它永远无法捕捉到真实、错综复杂的形式。纯非参数方法就像拥有一团无限的黏土；你拥有终极的灵活性，但你可能会迷失在细节中，将噪声和信号一同塑造，最终得到一个难以描述或理解的创作。

半参数模型提供了第三条道路。我们首先建立一个坚固、简单的骨架——参数骨架（ $\mathbf{X}^T\boldsymbol{\beta}$ ）。这个骨架代表了我们理解得很好或希望分离出来的关系，比如年龄或特定治疗的线性效应。然后，我们将灵活的黏土——非参数函数（ $g(Z)$ ）——应用到这个骨架周围，让数据塑造其最终形状。真正的魔力在于，正如我们将看到的，模型本身可以从数据中学习，故事的多大一部分应该由刚性骨架讲述，多大一部分由灵活的黏土讲述。结构与灵活性之间的这种持续对话，正是这些模型如此强大的原因。

这不仅仅是一个抽象的权衡。在机器学习的世界里，它表现为模型的表达能力与其过拟合倾向之间的张力。一个更灵活的模型（如深度神经网络）具有更低的*近似误差——它能够表示更复杂的真理。但这种能力是有代价的：它可能有更高的估计误差*，因为它可能拟合我们有限样本中的随机噪声；以及更高的优化误差，因为在如此广阔的可能性空间中找到最佳拟合可能极其困难。半参数模型是在管理这种权衡方面的大师级课程。

现在，让我们开始一次巡礼，见证这个美丽的思想在实践中如何解决从遗传学、经济学到人工智能等不同领域的实际问题。

解码生命之书：时间、基因与进化

时间是生物学中的一个基本变量，但它很少以简单、线性的方式表现。疾病的风险、突变的积累、进化的步伐——这些过程随时间以复杂、未知的节奏展开。半参数模型为研究这些时间依赖性现象提供了完美的工具包。

想象你是一名遗传学家，正在研究一种增加某种疾病风险的基因。你的目标是量化这种风险。问题在于，这种疾病可能在任何年龄发作。它不是一个简单的“是/否”结果。发病年龄是关键变量。此外，你的研究将在每个人要么患病要么活过风险年龄之前结束。一些参与者会搬走，一些会因其他原因去世。对于这些个体，你的信息是不完整的；你只知道他们在某个年龄之前是无病的。这被称为右删失，是医学研究中一个普遍的挑战。

一种天真的方法可能是简单地将人们在研究结束时分类为“已诊断”或“未诊断”。但这有严重缺陷，因为它将一个30岁时失访的人与一个90岁时被证实健康的人同等对待。半参数的Cox比例风险模型应运而生。它巧妙地将问题一分为二。我们关心的部分——基因的效应——被捕获在一个简单的参数项 $\exp(\beta)$ 中。我们不知道也无需指定的部分——在任何给定年龄的潜在、瞬时疾病风险，即基线风险 $h_0(t)$ ——则作为一个未知的非参数函数。该模型通过纳入个体在其最后接触点之前存活且无事件的概率，正确地处理了删失个体。这使我们能够估计基因的效应，而无需对疾病在整个生命周期中的自然进程做出强有力且很可能是错误的假设[@problem_-id:2836263]。

这个思想可以扩展到更复杂的情况。在许多临床试验中，患者并非被连续监测。他们的状况只在预定的访视时检查——比如，每隔几个月。如果一个患者在第4周测试为阴性，在第8周测试为阳性，那么事件（例如感染）发生在该区间内的某个时间，但我们不知道确切是何时。这被称为区间删失。用于右删失数据的标准工具，如用于比较两种治疗的经典对数秩检验，此时会失效。然而，半参数的哲学依然适用。我们可以构建一个广义检验，作为Cox模型的得分检验推导出来，它能恰当地解释每个区间内的不确定性。它通过使用一个灵活的、与所有观察到的区间一致的基线生存曲线的非参数估计来实现这一点。原理保持不变：分离出感兴趣的参数，同时让数据灵活地告知模型的讨厌函数部分。

从人类的寿命放大到广阔的进化历史，我们发现同样的原理在起作用。为了确定物种分化的年代，生物学家分析基因序列，通常基于“分子钟”假设。最严格的假设，即严格时钟，是一个参数模型，其中突变在所有谱系中以恒定速率累积。这在生物学上通常不现实。一种更强大的方法是松弛分子钟，它是一个半参数模型。它允许进化速率在生命之树上变化。为了防止这些速率以混乱、无意义的方式变化，模型引入了对“粗糙度”的惩罚。它假设子分支的进化速率应与其父分支的相似。这是通过一个惩罚似然目标函数来实现的，该函数旨在同时很好地拟合遗传数据（似然部分）并保持速率平滑（惩罚部分）。一个平滑参数 $\lambda$ 控制着这种权衡。当 $\lambda \to \infty$ 时，对任何速率变化的惩罚变得无穷大，我们便恢复到严格的参数时钟。当 $\lambda \to 0$ 时，速率被允许自由变化。这使得研究人员能够找到一条既与数据一致又在生物学上合理的“中间道路”。

在混乱世界中寻找因果

科学中最具挑战性的任务之一是从观测数据中推断因果关系。我们想知道一项新的教育计划是否能提高考试成绩，某种饮食是否能预防心脏病，或者一项公共政策是否达到了预期效果。与随机对照试验不同，我们比较的群体通常在许多方面都有所不同。半参数模型提供了强大的策略来解释这些差异，从而更接近因果答案。

考虑估计一项非随机化干预措施（如自愿参加的职业培训计划）效果的问题。报名参加该计划的人可能与不参加的人不同——也许他们更有动力或有不同的教育背景。简单比较两组之间的结果会产生误导。解决这个问题的一个流行技术是倾向得分匹配。倾向得分是个体在给定其观察到的特征（协变量）的情况下接受干预的概率。通过匹配处理组和未处理组中具有相似倾向得分的个体，我们可以创造一个更“苹果对苹果”的比较。

但这取决于准确估计倾向得分。如果我们使用标准的参数模型，如逻辑回归，我们可能假设协变量以简单、线性的方式影响接受干预的概率。如果这个假设是错误的——如果真实关系是复杂和非线性的——我们的倾向得分估计就会有偏差，我们的最终因果估计也会有偏差。在这里，半参数方法提供了一种稳健的替代方案。例如，我们可以使用保序回归模型。这个模型更灵活；它只假设协变量与处理概率之间的关系是单调的（即总是增加或总是减少），而没有指定确切的函数形式。这种额外的灵活性使模型能够更好地捕捉真实的潜在关系，从而得到更好的平衡匹配组和更可信的因果估计。

另一种源于计量经济学的强大准实验方法是回归断点设计（RDD）。想象一所大学为所有入学考试成绩达到或超过85分的学生提供奖学金。为了估计奖学金对例如毕业率的影响，我们可以利用这个明确的截断点。关键的洞见是，得分84.9的学生很可能与得分85.1的学生非常相似，唯一的系统性差异是一组获得了奖学金而另一组没有。因果效应可以估计为在截断点处结果的“跳跃”或不连续性。为了估计这个跳跃，我们需要对截断点两侧的考试分数与毕业率之间的关系进行建模。一个全局参数模型（例如，一条直线）会过于僵化。相反，RDD使用一种称为局部多项式回归的半参数技术。该方法在截断点周围的一个狭窄窗口内对数据拟合灵活的多项式曲线，有效地忽略了远离阈值的数据。它就像一个统计显微镜，只聚焦于关键区域，让截断点附近的数据来决定回归线的形状，从而我们可以测量这个跳跃。

驾驭复杂性：从生态系统到人工智能

随着我们收集数据能力的增长，我们面临的问题的复杂性也在增加。我们现在需要处理来自环境暴露的大量混合物、来自公民科学家的海量数据集，以及人工智能的社会影响。半参数模型正处于这一新领域的前沿。

人类不是一次只接触一种化学物质，而是接触来自我们的食物、空气和水中的复杂“鸡尾酒”。这种混合物的综合效应可能是高度非线性的，化学物质之间存在协同或拮抗作用。理清这些效应是一项艰巨的任务。贝叶斯核机器回归（BKMR）是一种现代半参数方法，专为此问题设计。在BKMR模型中，健康结果被建模为两部分之和：一部分是用于已知混杂因素（如年龄）的简单参数部分，另一部分是用于化学混合物的灵活非参数部分。这个非参数分量 $h(\mathbf{x})$ 使用高斯过程进行建模，它可以捕捉几乎任何复杂的、非线性的、交互式的剂量-反应曲面。这种方法使研究人员能够识别哪些化学物质是健康效应的最重要驱动因素，并可视化不同暴露情景下的预测风险，为公共卫生监管提供关键信息。

数据革命还包括公民科学的兴起。像eBird这样的平台从世界各地的业余观鸟者那里收集了数百万条观测记录。这些数据对生态学来说是潜在的金矿，但它很杂乱。一位专家观鸟者进行四小时徒步旅行提交的清单，与一位初学者进行十分钟散步提交的清单会非常不同。我们如何从如此异构的数据中估计物种的真实丰度？目标最大似然估计（TMLE）是解决此任务的尖端半参数框架。它分两步工作。首先，它使用灵活的机器学习算法（非参数部分）来获得两个关键函数的初始估计：观察者努力程度与物种探测之间的关系，以及努力程度与提交清单概率之间的关系。其次，它执行一个巧妙的、有针对性的更新（参数部分），推动初始估计去解决一个关键的统计方程。这种两步舞产生了一个具有显著特性的估计器，称为双重稳健性：如果两个初始机器学习模型中任何一个是正确的，它都保持一致和无偏。它不需要两者都完美。这提供了一层双重保障，使我们在处理复杂的真实世界数据时，结论更加可靠。

最后，随着算法在我们的生活中做出越来越重要的决定——从贷款申请到医疗诊断——我们必须确保它们是公平和公正的。半参数模型可以帮助我们直接将公平性构建到数学中。想象一个模型，它使用特征 $X$ 和受保护属性 $A$ （例如，种族或性别）来预测一个二元结果。我们可以使用一个形如 $\sigma(\beta X + \gamma A)$ 的部分线性模型。在这里，特征的影响是参数化的，并且我们有一个明确的项来表示受保护的属性。如果我们的目标是实现*人口均等*——意味着模型的正向预测率在所有群体中都相同——我们可以将这个伦理要求转化为一个数学方程，并求解出强制执行该条件的参数 $\gamma$ 。这展示了一个强大的未来方向：设计不仅具有预测性，而且可证明与我们的社会价值观相符的模型。

从最小的基因到最大的生态系统，从生命的黎明到人工智能的未来，半参数方法提供了一个统一而强大的视角。它教会我们对我们所知保持谦卑，在我们无知之处拥抱灵活性，并构建与我们试图理解的世界一样丰富和细致的模型。