典范相关性分析 (CCA)

玻尔百科

定义

典范相关性分析 (CCA) 是一种统计方法，通过寻找最大相关的线性组合来识别和量化两组变量之间的隐藏关系。作为一种无监督学习技术，它擅长发现不同数据集之间共同变化的共享信号，即使这些信号具有低方差或被噪声掩盖。除了处理线性关系的经典模型外，核典范相关分析（Kernel CCA）和正则化 CCA 等扩展方法被用于解决非线性问题及高维数据的挑战。

核心要点

典范相关性分析（CCA）是一种统计方法，通过寻找最大相关的线性组合来识别和量化两组变量之间的隐藏关系。
与最大化方差的 PCA 不同，CCA 擅长发现两个数据集中共同变化的共享信号，即使这些信号方差很低且被噪声掩盖。
经典 CCA 仅限于线性关系，并且在处理高维数据时可能会失败，但像核 CCA（用于非线性）和正则化 CCA（用于 p >> n 问题）等扩展方法克服了这些限制。
作为一种无监督方法，CCA 会寻找最强的相关性，无论其来源如何，这需要仔细解读，以区分真正的生物信号与技术伪影或无关变量。

引言

在我们这个数据丰富的现代世界，复杂系统通常从多个视角进行描述。单个患者可能通过其基因构成、代谢谱和脑成像扫描来表征；全球气候则通过大气压力场和局部温度测量来描述。根本挑战不仅在于孤立地分析每个数据集，还在于发现连接它们的隐藏线索。我们如何才能超越简单的一对一比较，揭示共享的叙事，即连接这些不同高维视图的潜在协变模式？

本文介绍了典范相关性分析（CCA），这是一种为解决此问题而设计的强大而优雅的统计技术。它为寻找两个复杂数据集之间的共同点提供了一个有原则的框架。在接下来的章节中，我们将踏上一次全面探索 CCA 世界的旅程。首先，“原理与机制”一章将揭开该方法数学核心的神秘面纱，解释其如何通过最大化相关性来工作，并探讨其与 PCA 和 SVD 等其他基石技术的深层联系。然后，“应用与跨学科联系”一章将展示 CCA 在实践中的力量，说明它如何作为一种通用翻译器，在从基因组学、神经科学到气候科学等领域促成新发现，同时也会探讨其局限性和关键的现代扩展。

原理与机制

想象一下，你有两部史诗级小说，每部都从不同角色的视角讲述故事。虽然每本书都有自己独特的情节点和内心独白，但它们都描述了同一系列核心事件。你会如何找到核心的、共享的叙事呢？你不会只是简单地比较第一本书的第一章和第二本书的第一章。相反，你会寻找一个潜在的主题，一条贯穿两个故事的共同线索，即使它以不同的措辞和不同的节奏表达出来。

典范相关性分析（CCA）正是一种用于在两个复杂数据集之间寻找这种共享叙事的数学工具。它不只是寻找简单的一对一关系，而是寻求连接两个世界的最重要、最全面的协变模式。

探寻共享叙事

让我们具体化这个问题。想象一项生物学研究，科学家们从同一组患者身上收集了两类数据：转录组学数据，测量数千个基因的表达水平（我们称之为数据集 $\mathbf{X}$ ）；以及代谢组学数据，测量数百种代谢物的浓度（ $\mathbf{Y}$ ）。其核心假设是基因活动的变化驱动了新陈代谢的变化。

一种朴素的方法可能是计算每个基因与每种代谢物之间的相关性。这将产生数百万个相关性值，形成一片只见数字不见森林的海洋。这就像试图通过将每个词与其他所有词进行交叉引用来理解一部小说的情节。

CCA 采用了一种更为优雅的方法。它提出这样一个问题：我们能否为基因表达数据创建一个“摘要分数”，并为代谢物数据创建另一个“摘要分数”，使得这两个分数尽可能地相关？这个摘要分数并非仅仅是一个基因或一种代谢物，而是它们中许多个体的精心加权组合。例如，基因分数可以计算为：

$u = w_{g1} \times \text{gene}_1 + w_{g2} \times \text{gene}_2 + \dots + w_{gp} \times \text{gene}_p$

代谢物分数则为：

$v = w_{m1} \times \text{metabolite}_1 + w_{m2} \times \text{metabolite}_2 + \dots + w_{mq} \times \text{metabolite}_q$

CCA 的神奇之处在于找到完美的权重集——即向量 $\mathbf{w}_X$ 和 $\mathbf{w}_Y$ ——使得最终得分 $u$ 和 $v$ 之间的相关性达到最大可能。这些得分被称为第一对典范变量 (canonical variates)，它们的相关性被称为第一个典范相关系数 (canonical correlation)， $\rho_1$ 。如果一项研究发现一个很高的第一典范相关系数，比如 $\rho_1 = 0.92$ ，这意味着他们发现了一个强有力的协同生物活动轴。这指向一个由基因和代谢物共同讲述的主导性共享故事，尽管它本身并不能告诉我们是哪个特定基因导致了哪种特定代谢物的变化。

问题的核心：如何最大化相关性

那么，CCA 是如何找到这些最优权重的呢？它解决了一个构造精美的优化问题。假设我们的两个数据集由随机向量 $\mathbf{X}$ （包含 $p$ 个特征）和 $\mathbf{Y}$ （包含 $q$ 个特征）表示。它们的内部变异性由其协方差矩阵 $\Sigma_{XX}$ 和 $\Sigma_{YY}$ 描述，而它们之间的相互关系则由交叉协方差矩阵 $\Sigma_{XY}$ 描述。

我们的两个摘要分数 $u = \mathbf{a}^{\top}\mathbf{X}$ 和 $v = \mathbf{b}^{\top}\mathbf{Y}$ 之间的相关性由我们熟悉的统计公式给出：

$\rho = \frac{\mathrm{cov}(u, v)}{\sqrt{\mathrm{var}(u)\mathrm{var}(v)}} = \frac{\mathbf{a}^{\top} \Sigma_{XY} \mathbf{b}}{\sqrt{\mathbf{a}^{\top} \Sigma_{XX} \mathbf{a}}\,\sqrt{\mathbf{b}^{\top} \Sigma_{YY} \mathbf{b}}}$

CCA 的任务就是找到能够最大化该表达式的权重向量 $\mathbf{a}$ 和 $\mathbf{b}$ 。这个问题可以用一种稍微更直观的方式来表述。由于相关性不会因为我们缩放摘要变量而改变，我们可以通过增加一个约束来简化问题：即要求我们的新变量 $u$ 和 $v$ 的方差均为 1。

$\mathrm{var}(u) = \mathbf{a}^{\top} \Sigma_{XX} \mathbf{a} = 1$ $\mathrm{var}(v) = \mathbf{b}^{\top} \Sigma_{YY} \mathbf{b} = 1$

有了这些约束，我们相关性公式的分母就变成了 1。问题因此得到了精美的简化：我们只需在这些单位方差约束下，最大化协方差 $\mathbf{a}^{\top} \Sigma_{XY} \mathbf{b}$ 。

这个公式揭示了 CCA 哲学的一个关键方面：它是完全对称的。与试图从 $\mathbf{X}$ 预测 $\mathbf{Y}$ 因而具有不对称性的多元回归不同，CCA 将两个数据集视为平等的伙伴。它关乎的不是预测，而是发现共享结构。这使其成为一种强大的探索性分析工具，特别是当我们有两个复杂、嘈杂的数据集，并且希望在不预设因果关系的情况下找到它们之间的对话时。

优雅之舞：CCA 与 PCA 和 SVD 的关系

数学和科学中基本概念的美妙之处，常常在于它们与其他概念之间出人意料的联系。CCA 也不例外。它与线性代数的另外两个基石——主成分分析（PCA）和奇异值分解（SVD）——共舞一曲优雅之舞。

想象一下，在尝试比较我们的两个数据集 $\mathbf{X}$ 和 $\mathbf{Y}$ 之前，我们首先在内部对它们进行“标准化”。这个过程被称为白化 (whitening)，它转换每个数据集内的变量，使它们彼此不再相关，并且方差都为 1。这就像将两种不同的语言翻译成一种单一的、通用的数学语言。经过这种转换后，CCA 中看起来复杂的方差约束（ $\mathbf{a}^{\top} \Sigma_{XX} \mathbf{a} = 1$ ）变成了对我们权重向量长度的简单几何约束。

数据白化后，寻找最大相关投影的问题在数学上等同于对转换后的交叉协方差矩阵 $\Sigma_{XX}^{-1/2} \Sigma_{XY} \Sigma_{YY}^{-1/2}$ 进行奇异值分解（SVD）。得到的奇异值正是典范相关系数本身！这揭示了 CCA 本质上是 SVD 的一个巧妙推广，它经过调整以处理两个不同数据集的内部相关结构。

这种深层联系帮助我们通过思想实验来理解 CCA：

如果两个故事完全相同会怎样？ 假设我们对一个数据集及其完美副本（ $\mathbf{Y} = \mathbf{X}$ ）执行 CCA。现在，我们选择的任何投影与其自身都将具有完美的相关性 1。“最大化相关性”的目标变得毫无意义。在这种退化情况下，标准的做法是寻求捕获最多方差的投影。这恰恰是主成分分析（PCA）的目标。因此，当两个视图合二为一时，CCA 会优雅地退化为 PCA，表明 PCA 是 CCA 的一个特例。
如何在风暴中听到耳语？ 考虑一个来自神经科学的挑战。我们正在记录两个大脑区域 A 和 B。每个区域都有其自身响亮、高方差的活动（“风暴”），这是该区域独有的。但同时存在一个安静、低方差的信号（“耳语”），是它们之间共享的，代表着通信。如果我们对两个区域的组合数据应用 PCA，它将被风暴所淹没；它只会识别出占主导地位的、特定于区域的活动，因为 PCA 的设计初衷就是寻找最大方差的方向。另一方面，CCA 则是听到这声耳语的完美工具。它的目标是最大化相关性。由于区域 A 的风暴与区域 B 的风暴不相关，CCA 的优化过程会自然地忽略它。相反，它会专注于两个区域间唯一共同变化的因素：共享的耳语。这就是 CCA 的超能力：即使共享信号被大量独立噪声掩盖，也能找到它们。

CCA 的实际应用与注意事项

这种寻找共享信号的能力使 CCA 在处理大型多模态数据集的领域中成为不可或缺的工具。它被用于系统生物学中，以连接生物调控的各个层次（如转录和甲基化）；用于放射基因组学中，以关联影像特征与基因组谱；以及用于神经科学中，以揭示跨越不同大脑区域的神经回路。

将 CCA 置于其相关方法家族中进行考察非常重要。CCA 最大化相关性，而它的“表亲”偏最小二乘法 (PLS) 则最大化协方差。最大化协方差是在寻找高相关性和解释高方差之间的一种折衷，这使得 PLS 更适合预测任务。更高级的方法，如多组学因子分析 (MOFA)，将这些思想推广到一个概率框架中，该框架能够区分所有数据集共享的因子和每个数据集独有的因子。

在当今“大数据”时代应用 CCA，需要注意两大警告：

维度灾难：在许多生物学应用中，我们的特征数量远多于样本数量（ $p \gg n$ ）。这使得样本协方差矩阵成为奇异矩阵且无法求逆，导致经典 CCA 失效。解决方案在于正则化 CCA，它通过增加额外的约束——例如要求权重向量是稀疏的（大部分权重为零）——来使问题可解，并使结果更具可解释性。
相关不等于因果（且不总是信号）：CCA 是一种无监督方法，这意味着它对相关性的来源持不可知态度。如果两个数据集之间存在真实的生物信号，CCA 能出色地找到它。然而，如果存在共享的技术伪影——例如，由于在不同日期处理样本而产生的“批次效应”——CCA 同样会出色地找到那个伪影。它会忠实地报告这个强烈的共享模式，而粗心的科学家可能会将其误认为是一项重大发现。谨慎的实验设计和数据清洁是无可替代的。

超越线性范畴：非线性关系

经典 CCA 最后一个，或许也是最重要的局限性在于，它假设两个共享故事之间的关系是线性的。它寻找典范变量之间的最佳直线拟合。但自然界很少如此简单。

考虑基因启动子区域的可及性（一种 ATAC-seq 测量）与其转录水平（一种 RNA-seq 测量）之间的关系。这种关系可能是开关式的：低于某个可及性阈值时没有转录，而高于该阈值时转录开启。或者它可能是饱和的：在非常高的可及性水平下，转录机制已满负荷工作，使该区域更易接近也不会有进一步效果。在这两种情况下，用直线来描述事实都是不恰当的。

正是在这里，CCA 的思想可以得到扩展。如果原始变量之间的关系不是线性的，或许可以通过一种新的方式看待这些变量，使其变得线性。这就是核典范相关性分析 (kCCA) 背后的逻辑。“核技巧”是机器学习中一个强大的思想，它涉及将数据映射到一个更高维的特征空间。

例如，如果我们怀疑存在一个 U 型关系，其中 $y$ 同时依赖于 $x$ 和 $x^2$ ，我们可以简单地为 $x$ 创建一个新的特征空间，该空间同时包含原始变量及其平方。通过在这个增强的空间中运行 CCA，我们赋予了它检测这种非线性模式的能力。正如人们可能预期的那样，只有当数据中存在真正的非线性耦合时，这种基于核的方法才会比线性 CCA 更具优势。这种将最大相关性核心原则扩展到非线性世界的能力，确保了 CCA 及其衍生方法在科学所寻求理解的复杂、互联的系统中，仍将是至关重要的发现工具。

应用与跨学科联系

在探索了典范相关性分析（CCA）的数学核心之后，人们可能会倾向于将其视为一种优雅但抽象的统计机器。但这样做无异于只见树木，不见森林。CCA 的真正魔力，如同任何深刻的科学工具一样，不在于其形式上的完美，而在于其连接不同世界的非凡力量。它是一位通用翻译家，一位数学外交官，能够在对同一现实的看似迥异的描述之间找到共同点。

想象一下，你对一个复杂事件有两种记录。一种是丰富的高分辨率照片，以极高的精度捕捉了每个空间细节，但冻结在单一瞬间。另一种是同一事件的录音，捕捉了时间的流动和事件的动态，但没有关于声音来源位置的信息。你如何将这两者联系起来？你如何发现音频中的某个特定尖峰对应于照片中的某次特定闪光？这正是 CCA 应运而生的挑战类型。它提供了一种有原则的方法来寻找共享的故事，即连接同一基础系统的两个不同“视图”的潜在模式。现在，让我们来探索这个强大的思想如何照亮从我们大脑内部运作到全球气候模式的各个领域。

聆听身体的交响乐

在生物学和医学领域，对单一系统的“多重视图”比比皆是。我们的身体是复杂、相互作用过程的交响乐，而我们用来观察它们的仪器——从脑部扫描仪到腕戴式智能手表——每一个都只捕捉到音乐的一部分。CCA 让我们能够融合这些零散的记录，以重建完整的乐谱。

思考一下理解人脑的挑战。脑电图（EEG）就像放置在头皮上的一组麦克风，以毫秒级的精度记录大脑的电“节律”。它告诉我们事件发生的时间，但不能精确告知地点。相比之下，功能性磁共振成像（fMRI）提供了详细的血流 3D 地图，向我们展示大脑活跃的位置，但有几秒钟的延迟。我们有了“时间”和“地点”，但它们是脱节的。CCA 充当了指挥家，找到与特定大脑位置（来自 fMRI）的活动最紧密相关的特定大脑节律（来自 EEG）。它揭示了思维的时空基序，揭示了哪个神经管弦乐部分正在演奏乐谱的哪个部分。

这一原理从实验室延伸到我们的日常生活。现代智能手表可能同时包含心电图（ECG）传感器，测量心脏的电脉冲，以及光电容积描记（PPG）传感器，测量手腕的血容量变化。两者都是你心血管系统状态的报告者，但它们使用不同的语言，并且容易受到不同类型的噪声（如运动伪影）的影响。通过应用 CCA，我们可以找到一个共享的、潜在的信号——一个你心脏活动的纯化表示——它对任一单个传感器中的噪声都具有鲁棒性。它找到了由两个独立见证者讲述的共同心血管真相。

在精准医疗中，风险甚至更高。想象一下，试图预测一位抑郁症患者是否会对某种特定的抗抑郁药产生反应。我们可以收集 MRI 扫描（结构视图）和 EEG 记录（功能视图）的数据。每种模态都包含谜题的一部分。贝叶斯推理告诉我们，如果两个信息来源是互补的，那么将它们结合起来应该能产生比单独使用任何一个都更好的预测。CCA 正是实现这种结合的机制。它可以识别出一个联合的神经特征，即一种与治疗反应最大相关的特定大脑结构和功能模式。这不仅仅是一个学术练习；这是朝着为个体量身定制治疗方案迈出的一步，超越了“一刀切”的医疗模式。

解码生命之书

如果我们从器官和系统的层面放大到细胞和分子的微观世界，那么“视图”的数量会爆炸式增长，CCA 的效用也随之增加。分子生物学的中心法则描述了信息从 DNA 流向 RNA 再到蛋白质的过程。现代“组学”技术使我们能够同时测量所有这些层面，从而产生巨大的数据集。

在一项跨组学研究中，我们可能拥有一组个体的遗传蓝图（基因型矩阵 $G$ ）和一份庞大的分子性状目录（例如，基因表达、蛋白质水平，矩阵 $M$ ）。单个遗传变异可能对单个分子没有大的影响，但它可能充当一个主调节器，巧妙地协同改变成百上千个分子的水平。CCA 是发现这些关系的完美工具。它寻求遗传变异的线性组合（一个“多基因评分”）和相应的分子性状的线性组合，使它们之间达到最大相关。这样做，它帮助我们从单一的基因-性状联系，转向理解基因网络如何编排复杂的分子程序。

然而，这一雄心壮志与一个可怕的统计恶魔相撞：维度灾难。在现代生物学中，我们通常只在几百个样本（ $n$ ）中测量数百万个特征（ $p$ 个基因， $q$ 个蛋白质）。在这种 $p \gg n$ 的情况下，标准 CCA 会失效。它所依赖的样本协方差矩阵会变成奇异矩阵——无法求逆。此时尝试运行 CCA 就像试图解一个未知数多于方程的方程组；解是不稳定且无意义的。解决方案不是放弃探索，而是要更聪明。正则化 CCA 应运而生。通过向协方差矩阵添加一个小的稳定“岭”项，我们使其可逆。这种正则化起到了奥卡姆剃刀 (Occam's razor) 的作用，惩罚过于复杂的解，并引导算法走向更简单、更鲁棒、更可能是真实的模式。对于将 CCA 应用于药物微生物组学和几乎所有现代基因组学领域中常见的高维数据集来说，这项技术是绝对必要的。

或许，CCA 最优美的现代应用之一是在单细胞生物学中。当我们分析来自不同患者或实验的单个细胞时，数据会受到“批次效应”的困扰——这些技术性变异与生物学无关。来自批次 A 的细胞可能与批次 B 的细胞看起来有系统性差异，仅仅因为它们是在不同日期处理的。我们如何才能看穿这种技术噪声？CCA 可以识别一个共享的低维空间，在这个空间中，两个批次的相关性最大。这个空间代表了细胞们所说的“共同生物学语言”。一旦进入这个共享空间，我们就可以识别“锚点”——即来自每个批次的一对细胞，它们是彼此的最近邻。这些锚点就像罗塞塔石碑 (Rosetta Stones)，我们确信它们代表着相同的生物状态。然后，我们可以计算细胞特异性的校正向量，以扭曲一个批次的数据来与另一个对齐，从而有效去除批次效应，同时保留复杂的生物结构。

超越生物学：一种通用镜头

CCA 的力量并不仅限于生命科学。它寻找共享模式的能力是一项普适原则，适用于任何由多组测量描述的系统。

在环境科学中，一项关键任务是“统计降尺度”。我们有全球气候模型的输出，这些模型描述了粗略网格上的大规模大气模式（我们的预测因子视图 $X$ ），而我们想预测特定地点的局部天气条件，如温度和降水（我们的被预测量视图 $Y$ ）。全球模型中的单个网格点无法完美预测你后院的温度。但是一个大规模的模式——例如急流的位置、高压系统的位置——可能与一个区域内的局部天气模式密切相关。CCA 被用来寻找这些耦合模式：即与特定局部气候异常模式最具预测性的大尺度大气场。这使我们能够将粗略的全球预报转化为有意义的局部预测。

更进一步，在抽象层面，CCA 甚至可以用来窥探深度学习的“黑箱”内部。一个神经网络由多层组成，我们可以将相邻两层 $H^{(l)}$ 和 $H^{(l+1)}$ 的激活值视为输入数据的两种不同表示。我们可以问：从一层传递到下一层的信息量到底有多少？这个信息通道的“维度”是多少？通过在两层的激活矩阵之间运行 CCA，我们可以找到接近 1 的典范相关系数的数量。这个数量为我们提供了层间共享子空间维度的估计，为理解网络内部的信息流和冗余度提供了一个强大的诊断工具。

一点警示：监督与无监督的区别

尽管 CCA 功能强大，但它带有一个关键的警示，这一点既是危险之源，也是更深刻见解的来源。经典 CCA 是一种无监督方法。它是一个忠实的仆人，会找到两个视图之间最强的相关性，无论其来源是什么。它没有什么是对特定科学问题“重要”或“相关”的概念。

想象一下我们某个生物学问题中的生成模型。我们的两个组学视图 $X$ 和 $Y$ 之间的相关性可能来自两个来源：一个与健康和疾病状态差异相关的“信号”部分，以及一个与某些其他生物学因素，甚至像批次效应这样的技术伪影相关的“无关”部分。如果无关部分碰巧产生了比疾病信号更强的相关性，经典 CCA 将忠实地找到捕获该无关因素的投影。在 CCA 派生的特征上训练的分类器，其性能可能比在原始数据上训练的分类器更差，因为 CCA 主动地将我们引离了我们正在寻找的信号！

这揭示了一个深刻的观点：用对的工具解决错的问题，仍然是错的。当我们的最终目标是预测或分类时，我们需要给我们无监督的工具一点“监督”。这就引出了一系列被广泛称为监督 CCA 的方法。其思想是修改目标函数。我们不再仅仅最大化两个数据视图之间的相关性 $\operatorname{corr}(Xw_x, Yw_y)$ ，而是可以添加一些项，这些项也会奖励这些投影与我们关心的类别标签之间的相关性。我们不再问“最强的共享故事是什么？”，而是问“与区分 A 和 B 相关且最强的共享故事是什么？”。这个听起来简单的转变，将 CCA 从一个纯粹的探索性工具转变为一个强大的、有针对性的构建预测模型的工具。这是一个绝佳的例证，说明了对一个方法的假设和局限性的深刻理解，如何让我们能够根据手头的任务来磨砺它，将潜在的陷阱转化为更强力量和更高精度的源泉。