基于协方差的学习：从神经原理到科学发现

玻尔百科

定义

基于协方差的学习：从神经原理到科学发现是神经科学和数据科学中的一种计算框架，通过减去平均活动来修正简单的相关性规则，从而识别真实的统计协方差。该方法使神经元能够通过将连接与输入数据中方差最大的方向对齐来实现主成分分析（PCA）。在生物学上，这一原理通过脉冲定时依赖可塑性（STDP）实现，通过增强或削弱连接来推断脉冲之间的因果关系。

核心要点

基于协方差的学习通过减去平均活动，改进了简单的相关性规则，使系统能够学习真实的统计协变关系，而不是被基线活动水平所偏导。
使用基于协方差规则的神经元的计算目标是主成分分析（PCA），因为它学会了将其连接与输入数据中方差最大的方向对齐。
脉冲时间依赖可塑性（STDP）是一种生物学机制，它在实现协方差原理的同时，通过加强因果脉冲对并削弱非因果脉冲对来推断因果关系。
在应用科学中，选择分析协方差（绝对方差）还是相关性（标准化方差）是一个关键决策，它决定了测量尺度是被视为一种特征还是一种偏差。

引言

生物或人工系统如何学习理解世界？挑战在于从随机噪声中分辨出有意义的模式。一个直观的想法，被 Donald Hebb 著名的“共同发放，共同连接”（fire together, wire together）假说所概括，即共同活跃的神经元应加强彼此的连接。然而，这种简单的基于相关性的方法存在严重缺陷，它常常通过强化背景活动而非真实关系来导致不稳定性。本文通过探讨基于协方差学习这一优雅的原理来解决这个根本问题。首先，在“原理与机制”一节中，我们将剖析这一精炼规则的工作方式，揭示其与主成分分析的联系，以及其在脉冲时间依赖可塑性中的复杂生物学实现。然后，在“应用与跨学科联系”一节中，我们将看到这个单一思想如何成为一把开启发现之门的万能钥匙，在从医学、气候科学到前沿人工智能等领域解锁深刻见解。

原理与机制

要理解一个系统如何学习，我们必须首先问一个简单的问题：“有意义的事件”是什么？对于大脑或受其启发的人工系统而言，一个事件就是一个神经元的发放。但单个脉冲本身很少有意义。意义产生于关系，产生于跨越时空的脉冲模式。学习最根本的挑战在于设计一种规则，它能基于有意义的关系来加强连接，同时忽略随机的巧合。这段从简单相关性到复杂因果推断的旅程，揭示了基于协方差学习的核心原理。

最简单的想法：“共同发放，共同连接”

让我们从最直观的想法开始，这是 Donald Hebb 在1949年提出的一个著名假说。其核心思想是，当一个神经元持续帮助另一个神经元发放时，它们之间的连接就应该被加强。我们可以把这看作是“共同发放，共同连接”的原则。在数学上，捕捉这一点最简单的方法是使用基于相关性的规则。如果我们用 $x$ 表示突触前（发送）神经元的活动，用 $y$ 表示突触后（接收）神经元的活动，那么它们连接强度（或权重） $w$ 的变化量可以与它们的乘积成正比：

$\Delta w \propto y \cdot x$

这似乎是常识。如果两个神经元经常同时活跃，它们的相关性就高，连接就会增强。然而，稍加思考就会发现一个深层次的缺陷。想象一下，有两个神经元只是非常活跃，一直以高频率发放，但原因完全不相关。一个简单的相关性规则会看到它们的高活动性，注意到它们经常同时“开启”，然后勤奋地加强它们之间的突触。这就像仅仅因为两名员工都工作很长时间，就断定他们是紧密的合作者，即使他们从未互动过。

这会导致严重的稳定性问题。如果神经元具有高基线活动，该规则会盲目地加强突触，可能导致失控的兴奋和不稳定的网络行为。学习规则捕捉到的是持续的背景噪声，而不是有意义的对话。这种不希望出现的效果是一种数学偏差；该规则并未学习神经元之间的纯粹相互作用，而是受到了它们各自平均活动的影响。我们需要一个更具辨别力的原则。

一种改进：学习信号，而非噪声

解决方案既优雅又简单。我们不应关注神经元的原始活动，而应关注它们如何围绕其平均活动水平协同波动。我们感兴趣的不是两个神经元都“开启”这一事实，而是它们以协调的方式同时“比平时更活跃”或“比平时更不活跃”的那些时刻。

这就是基于协方差学习的原理。我们首先计算神经元的平均活动，称之为 $\bar{x}$ 和 $\bar{y}$ 。然后，我们根据这些活动与平均值的偏差的乘积来更新突触权重：

$\Delta w \propto (y - \bar{y})(x - \bar{x})$

右边的量就是协方差。通过减去均值，我们消除了背景噪声。现在，只有当神经元的波动出现意料之外的巧合时，突触才会发生变化。它学习的是信号，而不是噪声。在我们关于员工的类比中，爱丽丝和鲍勃之间的联系只有在他们俩都出乎意料地加班处理同一个特定紧急事件时才会加强，而不仅仅因为他们通常都是勤奋的员工。

这个简单的改变带来了深远的影响。它稳定了学习过程，防止了因基线活动导致的权重失控增长。至关重要的是，它改变了神经元学习的内容。一个基于相关性的神经元对其输入的原始能量敏感，而一个基于协方差的神经元则成为最显著的协变模式的探测器。但在实践中，这意味着什么呢？

协方差学习究竟做什么？

想象一个神经元接收着成千上万个输入，这简直是一片信息的嘈杂之声。如果这个神经元根据基于协方差的规则来调整其突触权重，它将不会被淹没。相反，它会逐渐自我调整。对于那些倾向于一同波动的输入，其权重会变得更强；对于那些独立或反相关的输入，其权重会变得更弱。

随着时间的推移，神经元的权重向量 $\mathbf{w}$ 将与输入流中统计相关性的主导模式对齐。这个模式被称为数据的第一主成分。想象一下听一场管弦乐。一个主成分就像大提琴声部；所有单个的大提琴手演奏的音符略有不同，但它们的声音高度相关，形成一个连贯的整体。基于协方差的学习规则允许神经元“调谐”到大提琴声部，成为音乐中该特定成分的探测器，同时忽略来自观众咳嗽的无关噪声。

这不仅仅是一个类比。数学上可以证明，使用基于协方差规则的神经元的权重向量 $\mathbf{w}$ 将会演化，直到它指向与输入协方差矩阵 $\boldsymbol{\Sigma}$ 的主特征向量相同的方向。这个方向恰好是第一主成分，代表了输入数据中方差最大的轴。因此，其计算目标是主成分分析（PCA），这是数据分析的基石。神经元通过一个简单的局部规则，学会在其复杂的输入世界中找到最重要的维度。

有趣的是，如果输入信号的均值为零，那么相关性规则和协方差规则之间的区别就完全消失了。如果一开始就没有基线活动，那么相关性就是协方差，两种规则变得完全相同。这一见解阐明了转向协方差框架的全部目的，就是为了处理生物和人工系统中非零基线活动的现实情况。

时间的精妙之处：从发放率到脉冲

到目前为止，我们一直将“活动”或“发放率”当作平滑、连续的信号来讨论。但在大脑中，神经元通过称为脉冲的短暂、离散的电脉冲进行通信。这些脉冲的精确时间重要吗，还是只有平均发放率才重要？

考虑一个绝妙的思想实验。我们设置三种情景。在每种情景中，一个突触前神经元以 20 Hz 的频率周期性发放，一个突触后神经元也以 20 Hz 的频率发放。三种情况下的平均发放率完全相同。

因果性： 突触后神经总是在突触前神经元发放之后恰好 5 毫秒发放。
反因果性： 突触后神经元总是在突触前神经元发放之前恰好 5 毫秒发放。
独立性： 突触后神经元随机发放，与突触前脉冲无关。

一个基于慢发放率的协方差规则对这些差异是“视而不见”的。在所有三种情况下，它看到的都是一个恒定的 20 Hz 输入和一个恒定的 20 Hz 输出。由于发放率没有波动，协方差为零，因此没有学习发生。该规则无法区分一个完美的因果联系、一个完美的反因果联系，或完全的独立性。

这就是脉冲时间依赖可塑性（STDP）这一生物学现实发挥作用的地方。在真实的突触中，脉冲的顺序在毫秒级的时间尺度上至关重要。一个典型的 STDP 规则极其敏感：

如果一个突触前脉冲比一个突触后脉冲早到几毫秒（一个因果配对），突触就会被加强。这被称为长时程增强（LTP）。
如果突触前脉冲比突触后脉冲晚到几毫秒（一个反因果配对），突触就会被削弱。这被称为长时程抑制（LTD）。

将这个 STDP 规则应用于我们的三个情景，会得到一个智能得多的结果：在因果情况下是增强，在反因果情况下是抑制，而在独立情况下平均没有变化。显然，STDP 是一个比简单的基于发放率的协方差规则更强大、更精细的机制。它似乎是一种学习因果关系而不仅仅是相关性的机制。

更深层的联系：它们何时相同？

我们是刚刚用一个原则替换了另一个吗？基于协方差的学习仅仅是更为复杂的 STDP 的一个粗略近似吗？它们之间的关系比这更优美、更统一。

尽管 STDP 对脉冲序列的完整时间结构敏感，而零延迟协方差规则则不然，但它们并非完全无关。在特定条件下，它们会收敛到相同的解。如果输入模式变化得非常非常缓慢——远慢于毫秒级的 STDP 时间窗口——那么脉冲的精细时间就变得不那么重要了。在这种慢调制机制下，复杂的 STDP 规则实际上表现得就像一个协方差规则，加强了在这个慢时间尺度上共同活跃的突触。

更引人注目的是，对于一大类输入，STDP 的最终计算目标与协方差学习的目标是相同的。时间敏感的 STDP 规则，尽管具有生物学上的复杂性，其作用通常是引导神经元的权重与输入空间协方差矩阵的第一主成分对齐。这是一个深刻的见解：大自然似乎发明了一种基于脉冲的、时间上精确的机制（STDP），来解决我们更简单的协方差规则所处理的同一个基本统计问题（PCA）。就好像 STDP 是协方差原理的高性能实现。

因果性、相关性与常识

这就引出了我们最后一个问题。为什么 STDP 时间窗口是不对称的？为什么对于反因果的脉冲配对，突触应该被削弱？这个特性不仅仅是为了数学上的稳定性；它是一种进行真正推断的机制。

一个突触前脉冲只有在它先于突触后脉冲到达时，才能物理上引起突触后脉冲的发放。这建立了一个时间的因果之箭。任何观察到的突触后脉冲先出现的配对，都必须有不同的解释。那会是什么呢？一个可能的原因是存在一个隐藏的共同输入——第三个神经元同时向我们的突触前和突触后细胞发送信号，导致突触后细胞恰好在突触前细胞之前发放。

因此，突触面临一个难题。当它观察到时间上的紧密相关性时，它必须自问：“是我的突触前脉冲导致了突触后脉冲，还是我们俩都只是在响应一个共同的影响？” 不对称的 STDP 规则是大自然的答案。

先前后后（LTP）： “这个时间顺序与我导致你发放的情况一致。我将加强我们的连接，以反映这种可能的因果联系。”
先后再前（LTD）： “这个时间顺序与我导致你发放的情况不一致。这种相关性很可能是虚假的，是共同驱动因素的结果。我将削弱我们的连接，以剔除这种非因果关联。”

这是一个了不起的局部计算。它允许突触超越简单地测量相关性，开始推断其环境的因果结构。基于协方差的学习为在数据中寻找结构提供了基础工具。STDP 对这一工具进行了提炼，增加了时间上的复杂性，使其能够剔除虚假相关性，并根据因果关系塑造一个世界的表征。

应用与跨学科联系

既然我们已经探讨了协方差的原理，现在让我们踏上一段旅程，看看这个思想将我们引向何方。你可能会感到惊讶。测量事物如何协同变化的概念，并非某种枯燥、抽象的统计学概念；它是一个强大的透镜，科学家和工程师通过它来观察世界，一个在医学、分子生物学、气候科学和人工智能等不同领域解锁秘密的工具。就像一把万能钥匙，它能打开许多不同的门，在每个房间里，我们都会发现一个全新而迷人的谜题。

选择观察内容的艺术：协方差与相关性

想象一下，你正在主持一个委员会做决策。委员会成员就是你的变量。如果你基于“协方差”来主持会议，你会让说话声音最大、时间最长的人——即方差最大的人——主导谈话。如果你基于“相关性”来主持，你会首先要求每个人以正常音量发言，给予每个人平等的发言权。这两种方法本身都无所谓“对错”，但选择会极大地改变结果。这是基于协方差思维的第一个也是最根本的应用。

考虑一项医学研究，旨在从两个生物标志物中创建一个单一的风险评分：收缩压，以 mmHg 为单位，变异范围巨大；以及一个敏感的炎症标志物（hs-CRP），以 mg/L 为单位，范围小得多。如果我们使用像主成分分析（PCA）这样基于协方差的工具，血压的巨大数值方差将极度引人注目。最终的风险评分将几乎完全由血压决定，而来自炎症标志物的微妙信号将被淹没。

这是我们想要的吗？也许是。如果我们认为血压 10 mmHg 的波动在临床上远比 hs-CRP 的任何波动都重要，那么让协方差主导是正确的选择。它尊重了原始测量的“绝对变异性”。但如果我们怀疑两个标志物在各自的尺度上都贡献了重要的、独立的信息，那么我们必须首先将它们置于平等的地位。我们必须进行“相关性”分析，而不是“协方差”分析。通过对每个变量进行标准化——减去其均值并除以其标准差——我们将它们转换为一种通用语言。然后，对相关矩阵进行 PCA 分析，就会平等地对待两种生物标志物，寻找它们之间的协变模式，而忽略它们原始的单位和尺度。

同样的困境无处不在。在计算生物学中，当我们研究蛋白质的复杂舞蹈时，我们是想关注其柔性部分的大尺度运动（高笛卡尔方差），还是其内部角度的微妙、协调的变化，而后者可能对其功能至关重要？在蛋白质组学中，当我们分析来自质谱仪的大量数据时，我们是让少数超丰度蛋白质占主导地位，还是进行标准化以在数千种蛋白质中寻找协调模式，其中许多蛋白质丰度较低但可能对疾病通路更为关键？协方差与相关性之间的选择，实际上是关于科学问题本身的选择。它迫使我们去问：我的测量尺度是一个特征还是一个缺陷？

这种区别是如此根本，以至于它甚至能阐明我们的预处理选择。有时我们使用“稳健”的统计量，如中位数和中位数绝对偏差（MAD）来缩放数据，希望抑制极端离群值的影响。如果我们计划使用基于协方差的方法，这是一个明智之举。但如果我们已经计划使用基于相关性的方法，这一步在数学上就是多余的！根据其定义，皮尔逊相关性不受单个变量的这种平移和缩放的影响。理解协方差不仅教会我们如何分析，还教会我们如何避免过度分析。

驯服野性：非高斯世界中的协方差

我们所处的舒适的协方差和相关性世界，建立在一个不言而喻的假设之上：我们的数据或多或少地表现得像高斯分布那优雅的钟形曲线。但现实世界往往没有那么规矩。

想象一下，你是一位试图模拟降雨的气象学家。雨水是一种棘手的东西。很多时候，根本不下雨（在零点有一个巨大的“点质量”），而下雨时，雨量也不是对称的——毛毛雨很常见，但倾盆大雨虽然罕见却可能发生（一种“偏斜的、重尾的”分布）。如果你应用一个标准的基于协方差的滤波器，比如天气预报中使用的集合卡尔曼滤波器，它会活在一个幻想世界里，那里的雨可以是负数，其波动总是对称的。模型将不可避免地产生无稽之谈，比如预测 $-2$ mm 的降雨。

我们该怎么办？放弃我们强大的协方差工具吗？不！我们采用一个巧妙的技巧。我们发明一副数学“眼镜”，戴上它，就能让降水这个狂野的、非高斯的世界看起来温顺且呈钟形。这个过程被称为高斯变换（Gaussian anamorphosis）。给这副眼镜开的一个常见“处方”是使用数据自身的累积分布函数（CDF）来转换数据。在我们舒适的、变换后的“高斯世界”中完成分析后，我们只需通过逆变换摘下眼镜，将结果返回到物理降雨的现实世界，从而保证它们永远不会是负数。同样的技巧也适用于被限制在边界内的变量，比如总是在 0 和 1 之间的相对湿度。一个 logit 变换， $Z_H = \ln(H/(1-H))$ ，可以将这个有限区间延展到无限的实数轴上，使其更适合于基于协方差的建模。这显示了该框架非凡的适应性：如果世界不适合你的工具，那就变换世界。

超越关联：寻求不变性与因果关系

到目前为止，我们一直在用协方差来发现哪些事物会协同变化。但这只是一个起点。更深层的问题是，事物为何会协同变化。这是一种有意义、稳定的联系，还是仅仅是巧合？

在这里，简单的协方差可能是一个糟糕的向导。考虑一个合成生物电路，其设计使其输出对小错误具有鲁棒性。输出误差 $Y$ 可能与参数误差 $\delta\theta$ 存在 U 型关系，可用一个简单的二次函数如 $Y = (\delta\theta)^2$ 来描述。如果我们测量输入误差和输出误差之间的标准皮尔逊相关性，我们会发现它恰好为零！ $\delta\theta$ 的正值和负值完美地相互抵消。一个天真的分析会断定该参数对输出没有影响，尽管它显然有影响。相关性只能看到线性关系；它对完美的抛物线是“视而不见”的。

为了在黑暗中看清事物，我们需要一个更强力的手电筒。这就是基于方差的敏感性分析发挥作用的地方，它是协方差思维的一个更宏大的愿景。我们不再问“ $Y$ 和 $\delta\theta$ 是如何相关的？”，而是问：“输出 $Y$ 的总方差中有多少可以由输入 $\delta\theta$ 的方差来解释？” 这就是 Sobol 指数的核心思想。这种方法正确地看到，即使平均趋势是平的， $\delta\theta$ 的波动是 $Y$ 波动的一个主要来源。对于二次模型，Sobol 指数不为零，正确地识别出该参数的重要性。

这个思想——分解方差——原来是通往科学最崇高目标之一的桥梁：区分纯粹的相关性与因果关系。其间的联系就是不变性原则。一个真正的因果关系应该是稳定和不变的，而一个虚假的相关性往往是善变的，会随情境的变化而变化。

想象一个旨在预测医院败血症的人工智能系统。一个仅在 A 医院数据上训练的模型可能会学到，某个特定品牌监护仪的读数升高是败血症的强有力预测指标。但这可能是一个虚假的相关性；也许那家医院主要在病情最重的患者身上使用该监护仪。当部署到使用不同监护仪或不同方案的 B 医院时，该模型会彻底失败。这种相关性不具有不变性。

现代机器学习方法，如不变风险最小化（IRM），明确地寻找在多种不同环境（例如，多家医院）中都成立的预测关系。它们惩罚那些依赖于“虚假”特征的模型，这些特征与结果的关系会因环境而异。通过这样做，它们实际上在进行一种复杂的协方差分析，寻找一个更可能是因果关系的、稳定的、不变的条件分布。对于具有高斯变量的简单线性系统，这些先进方法通常会简化为我们已经见过的更简单的度量。但在人工智能和生物学的复杂、非线性世界中，它们为构建不仅准确，而且鲁棒和可信赖的模型提供了一条严谨的路径。

发现的引擎

基于协方差思维最深远的应用，或许不是分析我们已有的数据，而是指导我们下一步应该收集什么数据。协方差本身成为了发现的引擎。

想象一下，你正在绘制一幅广阔的未知地貌图——例如，一个分子的势能面。你只能在少数几个位置进行测量。下一步你应该在哪里探测，才能最大限度地了解整个地图？高斯过程理论，作为现代机器学习的基石，提供了一个优美的答案：去你的不确定性最高的地方。而这种不确定性是如何测量的呢？通过后验方差。模型使用其协方差函数（也称为核函数）来学习它已经见过的点之间的关系。然后，同一个协方差函数允许模型预测其在每个未探索点的自身不确定性。方差最高的区域是那些距离现有数据点最远或最“不同”的区域。模型本身在告诉我们：“我不确定那边发生了什么；你应该去看看！” 这是最优雅形式的主动学习，一场由协方差介导的、在我们知识与无知之间的对话。

这一原则延伸至最复杂的系统。气候科学家关注临界点（如冰盖崩塌）的“预警信号”。一个关键信号是“临界慢化”，即系统从微小冲击中恢复所需的时间越来越长。这表现为时间序列的方差和自相关性的上升。但是，温度记录中方差的上升真的是末日来临的征兆，还是可能仅仅是随机天气噪声特征的改变？通过使用明确考虑条件方差的模型（如金融领域的 GARCH 模型），科学家可以将总方差分解为由系统慢化动力学引起的部分和由噪声本身引起的部分。这使他们能够提出更尖锐的问题并避免误报。

从一个简单的统计方法选择，到因果人工智能的前沿和对未知的积极探索，协方差的思想是一条贯穿所有现代科学的线索。它证明了一个简单的思想所具有的力量，即能够为科学发现提供一个深刻、统一且出人意料地优美的框架。