典型相关分析：在复杂数据中发现共享信息

玻尔百科

定义

典型相关分析：在复杂数据中发现共享信息是一种通过寻找两组变量之间具有最大相关性的权重汇总，从而提取复杂数据关系的统计学方法。该方法的数学原理基于线性代数，等同于求解广义特征值问题或执行奇异值分解（SVD）。这种技术是整合多模态数据的强大工具，常用于生物学中连接基因表达与代谢物水平，或在神经科学中融合核磁共振（MRI）与脑电图（EEG）数据。

核心要点

典型相关分析（CCA）是一种通过寻找两组变量的加权汇总，以使其相关性最大化，从而提炼复杂关系的方法。
CCA的数学解可以从线性代数中优雅地推导出来，它等价于求解一个广义特征值问题或执行一次奇异值分解（SVD）。
CCA是整合多模态数据的强大工具，例如在生物学中连接基因表达与代谢物水平，或在神经科学中融合MRI和EEG数据。
CCA的有效性受到其线性假设、对未测量混杂变量的脆弱性以及处理特征数量超过样本数量的高维数据时所面临挑战的限制。

引言

科学世界是由相互关联的事件构成的织锦，从细胞内基因与蛋白质的交响乐，到塑造我们气候的大气模式。理解这些联系是发现的基石。虽然简单的相关性可以连接两个独立的变量，但当我们面对庞大、高维的数据集时——比如基因组中的数千个基因和细胞中的数百种代谢物——它就显得力不从心了。我们如何才能超越一对一比较的杂乱网络，找到连接整个变量系统的宏大叙事？这正是精密相关性方法旨在填补的基础知识鸿沟。

本文深入探讨了其中一种最强大、最优雅的方法：典型相关分析（Canonical Correlation Analysis, CCA）。它提供了一个镜头，能将两个复杂数据集之间最重要的共享模式清晰地呈现出来。在接下来的章节中，您将全面理解这项技术。首先，在“原理与机制”部分，我们将揭示CCA背后的核心思想，探索驱动它的数学引擎，并揭示其与线性代数的深层联系。随后，“应用与跨学科连接”一章将展示CCA如何充当通用翻译器，通过整合系统生物学、神经科学、气候科学乃至人工智能等领域的不同数据类型，促成突破性的发现。

原理与机制

要真正理解我们的世界，我们不能孤立地观察事物。自然是一幅由相互关联的事件构成的织锦。鸟儿的歌声与其寻找配偶的成功有关；我们基因的表达与细胞中的代谢过程有关；脑部扫描的模式与我们神经元的电节律有关。发现的艺术与科学往往在于找到并理解这些联系。但是，两件事物“相关”意味着什么？当我们面对的不是两件事物，而是两个完整的数据世界——比如数千个基因和数千种代谢物——我们又该如何找到连接它们的宏大、 overarching 的故事呢？

这正是相关性分析试图回答的根本问题。正如我们将看到的，通往答案的旅程将我们从简单的观察引向现代统计学和数学中一些最优雅、最强大的思想。

从简单配对到复杂系统

让我们从一个简单的观察开始。一位鸟类学家注意到，歌声更复杂的雄鸟似乎有更多的后代。一幅简单的歌声复杂度与后代数量的关系图可能会显示出一个清晰的趋势：随着一个上升，另一个也倾向于上升。这是一种相关性。但任何优秀的科学家都知道，相关不等于因果。也许更健康、营养更好的鸟既能唱出复杂的歌声，又能成功养育更多后代。歌声本身可能只是一个副作用。要建立因果关系，必须从被动观察转向主动实验，例如，在受控环境中回放不同复杂度的歌声，看雌鸟如何反应。

这种谨慎至关重要。但如果我们的问题更加复杂呢？想象一下，你是一位研究代谢性疾病的系统生物学家。对于每位患者，你测量了数千个基因的活性（转录组）和数百种代谢分子的浓度（代谢组）。你正盯着两张巨大的电子表格，每张都有数千列。你该从何入手？你可以尝试将每个基因与每种代谢物进行相关性分析，但这将产生数百万个相关性，构成一个令人绝望的、纠缠不清的连接网络，其中大部分都是噪音。

我们需要的是一种能见树木又见森林的方法。我们需要一种方法，它不仅能连接单个变量，还能总结整套基因和整套代谢物之间共变的主要模式。这正是典型相关分析（Canonical Correlation Analysis, CCA）登场的舞台。

典范思想：寻找主线故事

这个名字本身就极具描述性。“Canonical”（典范）在数学中指代同类事物中最自然、最标准或最主要的形式。CCA就是一种寻找两组变量之间典范——即最重要——相关性的方法。

其核心思想如下。CCA不是将一个基因与一种代谢物相关联，而是为每个数据集创建一个“超变量”，或者更正式地说，一个典型变量 (canonical variate)。这个变量不是原始测量值之一，而是所有测量值的精心选择的加权和。对于基因数据，我们可能有一个如下的变量：

$u = a_1 \times (\text{基因}_1) + a_2 \times (\text{基因}_2) + \dots + a_p \times (\text{基因}_p)$

对于代谢物数据：

$v = b_1 \times (\text{代谢物}_1) + b_2 \times (\text{代谢物}_2) + \dots + b_q \times (\text{代谢物}_q)$

CCA的精妙之处在于它如何选择权重，即系数 $a_i$ 和 $b_i$ 。它为基因找到一组特定的权重，并为代谢物找到另一组特定的权重，使得最终得到的两个摘要变量 $u$ 和 $v$ 之间的相关性达到最大可能。这个单一的、最大的相关性被称为第一典型相关。它代表了连接两个数据集的单一最主要的线性关系，即主线故事。在找到第一对变量后，CCA可以继续寻找下一个最佳故事——即第二对典型变量，它们在与第一对变量不相关的条件下，实现最大相关——并依此类推。

这种方法与其他方法有根本的不同。例如，偏最小二乘法 (Partial Least Squares, PLS) 旨在最大化摘要变量之间的协方差，而非相关性。这意味着PLS偏爱那些不仅与另一个数据集相关，而且还能解释自身数据集大量变异的摘要变量。而CCA通过最大化相关性，是尺度不变的；它纯粹关注线性关联的强度，而不管内部方差如何。另一种方法，独立成分分析 (Independent Component Analysis, ICA)，目标完全不同：它旨在找到统计上独立的摘要变量，这是一个比不相关强得多的条件。CCA的独特焦点在于相关性，且仅在于相关性。

数学引擎：CCA如何找到权重

CCA是如何施展这种寻找完美权重的魔法的？其机制是统计学与线性代数之间美妙的相互作用。

让我们将两组变量表示为随机向量 $\mathbf{X}$ （例如基因）和 $\mathbf{Y}$ （例如代谢物）。我们的目标是找到权重向量 $u$ 和 $v$ ，以最大化线性组合 $u^\top \mathbf{X}$ 和 $v^\top \mathbf{Y}$ 之间的相关性。相关性由熟悉的公式给出：

$\rho(u,v) = \frac{\mathrm{cov}(u^\top \mathbf{X}, v^\top \mathbf{Y})}{\sqrt{\mathrm{var}(u^\top \mathbf{X})}\sqrt{\mathrm{var}(v^\top \mathbf{Y})}}$

使用协方差矩阵的语言，这变为：

$\rho(u,v) = \frac{u^\top \Sigma_{XY} v}{\sqrt{u^\top \Sigma_{XX} u} \sqrt{v^\top \Sigma_{YY} v}}$

这里， $\Sigma_{XX}$ 和 $\Sigma_{YY}$ 是描述每个数据集内部变异的协方差矩阵，而 $\Sigma_{XY}$ 是描述它们之间变异的互协方差矩阵。

直接最大化这个表达式看起来有些棘手。然而，我们可以使用一个标准的数学技巧。由于相关性不会因为我们缩放权重向量而改变，我们可以选择一个方便的缩放方式。让我们强制分母中的方差等于1。这给了我们一个约束优化问题：

最大化 协方差 $u^\top \Sigma_{XY} v$

约束条件为 $u^\top \Sigma_{XX} u = 1$ 和 $v^\top \Sigma_{YY} v = 1$ 。

这是一个清晰得多的问题。我们现在寻找的是最具协变性的投影，但仅限于那些已被归一化为单位方差的投影。我们如何解决这样的问题呢？事实证明，这个统计问题等价于线性代数中的一个基本问题：广义特征值问题。其解可以通过求解以下形式的方程找到：

$(\Sigma_{YX}\Sigma_{XX}^{-1}\Sigma_{XY}) w_y = \rho^2 \Sigma_{YY} w_y$

典型相关的平方 ( $\rho^2$ ) 作为该系统的特征值出现，而权重向量则从相应的特征向量中导出。这是一个非凡而优美的结果：最大化一个相关性比率这个看似凌乱的任务，最终化解为一个干净、优雅的特征值问题结构。例如，在一个简单的假设案例中，如果内部协方差是单位矩阵，而互协方差由 $S_{xy} = \begin{pmatrix} 0.8 0 \\ 0 0.3 \end{pmatrix}$ 给出，这个机制会立即告诉我们，我们能找到的最强可能相关性恰好是 $0.8$ 。

更深层的统一：CCA、几何与SVD

与线性代数的联系甚至更深，揭示了统计学与几何学之间深刻的统一性。像 $\Sigma_{XX}$ 这样的协方差矩阵，可以从几何上被看作是在空间中定义了一个椭球体，它描述了数据云的形状。从这个角度看，CCA试图找到能最好地对齐第一个数据集的椭球体和第二个数据集的椭球体的轴。

这个对齐问题可以通过一个极其优雅的程序来解决。首先，我们对每个数据集应用一个变换来“白化”其数据，本质上是拉伸和旋转每个数据椭球体，直到它变成一个完美的单位球体。这是通过使用协方差矩阵的逆平方根来完成的（例如，将 $\Sigma_{XX}^{-1/2}$ 应用于 $\mathbf{X}$ 数据）。

一旦两个数据集都被转换成完美的球形云，寻找最佳对齐轴的问题就大大简化了。整个CCA问题简化为对一个单一的、变换后的矩阵执行奇异值分解（Singular Value Decomposition, SVD）——这是所有线性代数中最基本的操作之一：

$M = \Sigma_{XX}^{-1/2} \Sigma_{XY} \Sigma_{YY}^{-1/2}$

矩阵 $M$ 的SVD将其分解为一个旋转、一个拉伸和另一个旋转。这些“拉伸因子”就是它的奇异值。在这种情况下，我们的矩阵 $M$ 的奇异值，令人惊讶地，正是典型相关本身！相应的奇异向量给了我们在白化空间中的权重向量。

这是数学统一性的一个美丽例子。一个复杂的统计优化问题，通过“白化”的几何直觉，被转换成一个标准的、基本的线性代数问题。告诉我们数据集之间联系强度的典型相关，与SVD中告诉我们一个球体被拉伸成椭球体程度的数字是相同的。

现实世界中的力量与陷阱

有了这个强大的工具，研究人员现在可以处理巨大的数据集。他们可以发现连接EEG和fMRI扫描中大脑活动的协调模式，或者找到遗传变异如何协调转录组和蛋白质组的变化。然而，像任何强大的工具一样，使用CCA必须有智慧，并意识到其局限性。

维度灾难 (The Curse of Dimensionality)：经典的CCA是为样本数 ( $n$ ) 多于特征数 ( $p$ ) 的情况设计的。在现代生物学中，我们常常遇到相反的情况——在几百名患者身上测量了数千个基因 ( $p \gg n$ )。在这种情况下，样本协方差矩阵无法求逆，经典的CCA会失效。这催生了现代变体的发展，如正则化CCA和稀疏CCA，它们对于将这些思想应用于大数据至关重要。
线性假设 (The Linearity Assumption)：标准的CCA是一种线性方法。它创建变量的加权和。但自然界通常是非线性的。一个基因的影响可能不是累加的；它可能像一个开关一样工作，或者其效果可能在高级别时饱和。CCA的基本形式会错过这些非线性关系。
混杂因素与因果关系 (Confounders and Causality)：最后，我们必须回到起点。CCA能找到相关性，即使是非常复杂的相关性，但它本身无法确定因果关系。它极易受到混杂变量的影响。如果一个未测量的因素，比如一个人的年龄或实验假象，同时影响了两个数据集，CCA会尽职地报告一个强相关性，而这个相关性可能与直接的生物学联系毫无关系 [@problem_-id:4395283]。严谨的科学要求我们在释放CCA等方法的威力之前，仔细控制这些混杂因素。

归根结底，典型相关分析是一个镜头。它不创造数据中的联系，但它提供了一种将最重要的联系清晰聚焦的方法。它证明了一个简单的统计学问题——这两组事物是如何相关的？——可以引导我们走向深刻的数学原理，并为我们探索自然世界美妙的复杂性提供一个强大的工具。

应用与跨学科连接

想象一下，你正在试图了解一座伟大的古城。你有两幅地图。一幅是地形图，显示了每一条河流、山丘和山谷。另一幅是政区图，显示了每一个行政区、道路和历史地标。每幅地图本身都是一个完整的世界，但没有一幅能讲述完整的故事。对这座城市的真正、深刻的理解——为什么一座堡垒建在某个特定的山丘上，或者为什么一条贸易路线沿着河流延伸——来自于将两幅地图叠放在一起，寻找它们之间的联系。你在寻找塑造了它们两者的共同故事。

这正是典型相关分析（CCA）的力量所在。在探讨了其数学原理之后，我们现在将其视为一个宏大的综合工具。它是一个通用翻译器，让我们能够找到隐藏在两种不同且往往令人困惑的复杂科学“语言”中的共同叙事。让我们踏上一段旅程，看看这个美丽的思想如何统一现代发现的各个不同领域。

新生物学：整合“组学”革命

现代生物学不再是一门单一测量的科学；它是一门系统科学。对于任何给定的生物样本，我们现在可以生成描述其不同方面的海量数据集：基因组（所有基因）、转录组（活跃基因）、蛋白质组（蛋白质）和代谢组（代谢物）。CCA是将这些不同的“视角”编织成一个连贯整体不可或缺的工具。

我们的旅程从一个单细胞内部开始。我们可以测量其DNA的哪些部分是物理上可供使用的——一种称为scATAC-seq的方法——我们也可以分别测量哪些基因正在被活跃地转录成RNA——即我们熟悉的scRNA-seq。把可及的DNA想象成工厂工作台上铺开的蓝图集合，而RNA转录本则是正在为即时生产而复制的特定蓝图。我们如何将可用的计划与实际正在进行的工作联系起来？CCA通过找到两个数据集之间共享的变异轴来提供答案。它构建了一个统一的空间，在那里我们可以精确地看到一个基因的调控区域的可及性如何与其表达水平相关联，从而为我们提供了一幅细胞调控逻辑的动态图景。

现在，想象我们不是一个，而是几十个这样的实验，可能来自不同的实验室或在不同的日子进行。每个实验就像是用略有不同的相机镜头拍摄的照片；底层的生物学是相同的，但技术变异或“批次效应”会使数据集难以直接比较。在这里，CCA为对齐提供了一个绝妙的解决方案。通过将数据集投影到一个共享的、低维的CCA空间中，我们可以识别“锚点”——即成对的细胞，每对中的一个来自一个数据集，它们是彼此的最近邻。这些锚点代表了通过不同实验镜头看到的相同生物状态。通过将这些锚点拉到一起，我们可以校正批次效应，并将原本不兼容的数据集拼接成一个单一、统一的细胞类型图谱。这项技术是许多大规模细胞普查项目的核心。

然而，生物学不仅仅是一锅互不相连的细胞汤；它在空间上是有组织的。借助新兴的空间转录组学等技术，我们可以在一块组织切片上创建基因活动的地图。我们可能还有同一组织切片的第二张蛋白质丰度图。CCA使我们能够对齐这两张空间地图，揭示表达某种基因的细胞邻域如何创造一个富含特定蛋白质的局部环境。它帮助我们以前所未有的方式理解组织和肿瘤的复杂结构。

最终，这项工作的许多目标是改善人类健康。在精准医疗中，我们可能拥有一组患者的数千个基因转录本和数百种蛋白质的数据。其中哪些与他们的疾病有关？CCA可以将这两个庞大的特征集提炼成它们最本质、最共享的信号。它可能会发现一个特定的基因组合，其表达与一个特定的蛋白质组合高度相关，而这个联合特征可能有力地预测患者对治疗的反应 [@problem-id:4542938]。这一原理甚至可以扩展到我们的身体与我们体内微生物之间复杂的相互作用。CCA可以将肠道中微生物基因活动的“语言”与我们血液中药物代谢的“语言”联系起来，揭示我们的微生物组如何影响我们对药物的反应。这需要仔细的统计处理，例如校正饮食等混杂变量，并考虑微生物数据的成分性质，但寻找共享轴的核心原则保持不变。

解码大脑与地球气候

CCA融合不同视角的能力绝不局限于生物学。它在神经科学、气候科学及其他领域也找到了同样深刻的应用。

思考一下理解人脑的挑战。我们可以用不同的方式测量其活动。MRI扫描仪为我们提供了大脑结构和血流缓慢变化的美丽、高分辨率地图——即大脑活动的“地点”。另一方面，EEG以毫秒级的精度测量快速的电振荡，但空间分辨率较差——即大脑活动的“时间”。这就像观看一部无声的高清城市交通电影，与收听城市整体嗡嗡声的录音。CCA提供了一种在它们之间找到和谐的方法。它可以揭示共享的模式，将特定解剖网络中的缓慢波动（来自MRI）与全脑快速电节律的功率变化（来自EEG）联系起来。从根本上说，正如贝叶斯决策理论告诉我们的那样，融合这些互补的信息流使我们能够对大脑状态做出更确定、更准确的预测，例如在预测精神疾病的治疗反应方面。

从心灵的内部空间转向外部世界，CCA是现代环境科学的基石。全球气候模型提供了地球气候系统的“望远镜”视角，预测像急流这样的大尺度大气模式。但对于许多实际用途——农业、水资源管理、灾害防备——我们需要一个“放大镜”视角：对特定山谷的局部温度和降雨量的预测。CCA提供了数学的桥梁。在一个称为统计降尺度的过程中，它学习将气候模型的大尺度预测场与局部尺度的观测联系起来的最佳方式。它找到了与局部天气变化最紧密耦合的大气环流模式，为我们提供了一种从粗粒度模型进行细粒度预测的统计上稳健的方法。

一种审视其他镜头的镜头

CCA是如此基础，以至于它甚至可以用来分析我们其他的理解工具，从医学成像到人工智能。

在转化医学中，放射科医生可能会检查肿瘤的MRI扫描，这是对其形状和纹理的宏观视图。与此同时，病理学家在显微镜下检查染色的组织切片，这是对其细胞组成的详细微观视图。我们能教计算机看到这两个世界之间的联系吗？通过从放射学图像（“影像组学”）和数字化的病理学切片（“病理组学”）中提取量化特征，我们可以使用CCA来找到相关性。它可以发现MRI中与显微镜下看到的细胞排列高度预测相关的微妙纹理，从而弥合肉眼可见与分子水平上发生的事情之间的鸿沟。

也许最抽象也最富启发性的应用是理解深度学习模型的内部工作原理。神经网络是一个通过一系列层来转换信息的“黑匣子”。它是如何思考的？我们可以将某一层 $H^{(l)}$ 的激活矩阵和下一层 $H^{(l+1)}$ 的激活矩阵视为我们的两个数据集。通过在它们之间执行CCA，我们可以测量它们共享子空间的维度——也就是说，层与层之间信息通道的“带宽”。大量接近1的典型相关告诉我们，大部分表征几何结构被保留了下来，而少量则告诉我们信息正在被压缩或彻底转换。通过这种方式，CCA成为一种诊断探针，让我们能够窥视人工智能的内部，并分析其思想的几何形状。

从细胞中分子的复杂舞蹈，到大气层的宏大洋流，甚至到我们自己计算创造物中的信息流动，世界以多种语言向我们展示自己。典型相关分析不仅仅是另一种统计方法；它是一个深刻而美丽的统一原则。它是一个数学框架，用于寻找不同观察方式之间隐藏的和谐，并在此过程中，让我们更接近一个对世界本身的单一、连贯的愿景。