表征非相似性矩阵 (RDM)

玻尔百科

定义

表征非相似性矩阵 (RDM) 是计算神经科学中的一种基础工具，通过测量不同刺激诱发的神经模式之间的成对非相似性来捕捉表征几何。该框架脱离了原始数据的具体测量坐标系，从而实现了在不同受试者、物种乃至人工智能模型之间直接比较表征结构。研究人员利用 RDM 结合多维尺度分析和层次聚类等可视化技术，揭示大脑组织概念的方式并追踪神经处理的动态过程。

核心要点

表征非相似性矩阵 (RDM) 通过测量不同刺激所引起的神经模式之间的成对非相似性，从原始神经数据中抽离出来，以捕捉核心的“表征几何” (representational geometry)。
RDM 的一个关键优势在于其对特定测量坐标系的不变性，这使得我们能够直接比较不同被试、物种乃至人工智能模型之间的表征结构。
多维缩放 (MDS) 和层次聚类等可视化方法将数值化的 RDM 转换为直观的图谱和“家族树”，揭示大脑如何组织概念。
时间分辨 RSA 和多元回归 RSA 等高级应用使研究人员能够追踪毫秒级的神经处理动态，并厘清多种特征对一个表征的贡献。

引言

大脑是如何将感官输入转化为有意义的思想的？数百万神经元的活动模式形成了一种复杂的高维编码，但直接解读这种编码是一项艰巨的挑战。原始的激活值与一个任意的测量系统绑定，这使得我们难以比较不同个体、物种之间，甚至生物大脑与人工智能模型之间的表征。这就产生了一个知识鸿沟：我们可以测量大脑在做什么，但我们缺乏一种共同语言来描述它所表征的信息的结构。

本文介绍了一种解决此问题的强大方案：表征非相似性矩阵 (Representational Dissimilarity Matrix, RDM)。RDM 是一种将焦点从单个神经元或体素的活动转移到活动模式之间关系的方法。通过这样做，它为系统的表征几何提供了一个“指纹”，可以在截然不同的系统之间进行比较。在接下来的章节中，您将学习这种变革性方法背后的核心概念。“原理与机制”一章将解释 RDM 是如何构建的、它们的基本属性以及在使用过程中涉及的关键权衡。随后，“应用与跨学科联系”一章将探讨 RDM 如何成为连接神经科学与人工智能的桥梁，使我们能够可视化思维的形状，并对相互竞争的科学理论进行裁定。

原理与机制

大脑是如何理解这个世界的？当你看到一只猫时，数百万个神经元会爆发出一阵电化学活动。如果你看到另一只猫，一个相似但又独特的模式会发生。如果你看到一只狗，模式又会不同。我们可以使用功能性磁共振成像 (fMRI) 或电生理学等技术来测量这些模式，从而得到庞大的数字阵列——成千上万个体素的激活水平或数百个神经元的放电率。但从某种意义上说，这些原始数字是我们测量方式的偶然产物。我们大脑扫描仪的坐标系——为体素 #18,357 或神经元 #82 设定的任意标签——并没有深层含义。深刻的问题不是“这个特定体素的活动水平是多少？”而是，“‘猫’的模式和‘狗’的模式之间有何关系？大脑的内部编码是如何划分世界的？”

要回答这个问题，我们需要从原始数据中抽象出来，捕捉这些神经表征的核心几何结构。我们需要一种能揭示思维关系结构的方法。这正是表征非相似性矩阵 (RDM) 的美妙之处。

表征几何的指纹

想象一下，我们测量了大脑对四张图片的反应：一只家猫、一头狮子、一辆跑车和一辆皮卡。对于每张图片，我们都得到一个长向量，代表了比如 10,000 个体素的活动模式。RDM 是一个极其简单的想法：我们不直接解读这 10,000 个数字，而是创建一个小方格，简单地列出每对活动模式有多么“不同”或非相似。

结果是一个 $n \times n$ 的矩阵，其中 $n$ 是条件的数量。对于我们的四张图片，它是一个 $4 \times 4$ 的矩阵。第 $i$ 行第 $j$ 列的条目告诉我们大脑对条件 $i$ 和条件 $j$ 的表征之间的非相似性。这个矩阵有一些源于“非相似性”逻辑的优雅、明确的属性：

对角线为零：任何模式与自身的非相似性必须为零。“猫”的模式与“猫”的模式是完全相似的。因此，RDM 主对角线上的所有条目都为 0。
对称性：“猫”和“狮子”之间的非相似性应与“狮子”和“猫”之间的非相似性相同。这意味着矩阵沿其对角线对称 ( $D_{ij} = D_{ji}$ )。

由于这些特性，所有独特的信息都包含在矩阵的上三角（或下三角）中，它列出了每一对独特条件的非相似性。

让我们想象一下，在我们的例子中，这个 RDM 可能是什么样子。我们可能会发现“猫”和“狮子”的模式非常相似（低非相似性），“跑车”和“皮卡”的模式也很相似。然而，任何动物模式与任何车辆模式相比都会非常不同（高非相似性）。如果我们按 [猫, 狮子, 跑车, 皮卡] 的顺序排列条件，RDM 在视觉上会呈现出一种块状结构：左上角和右下角的值较低，而非对角线区块的值较高。我们已将 40,000 个数字（4 个模式 $\times$ 10,000 个体素）浓缩为仅 6 个独特的值，这揭示了一个深刻的见解：这个大脑区域沿着动物与载具的概念边界来组织其表征。RDM 是该大脑区域中表征几何的“指纹”。

选择你的透镜：测量非相似性的艺术

但是我们如何计算“非相似性”呢？这个函数的选择就像选择一个数学透镜来观察数据，不同的透镜会揭示几何结构的不同方面。其中最常见的两种是欧几里得距离和相关距离。

欧几里得距离是高维体素空间中两点之间我们所熟悉的直线“标尺”距离。如果模式 $\mathbf{r}_i$ 和 $\mathbf{r}_j$ 是体素激活向量，则距离为 $d(\mathbf{r}_i, \mathbf{r}_j) = \sqrt{\sum_v (\mathbf{r}_{iv} - \mathbf{r}_{jv})^2}$ 。这个度量对任何差异都敏感，包括激活总体强度的变化。

相关距离，通常定义为 $1 - \mathrm{corr}(\mathbf{r}_i, \mathbf{r}_j)$ ，则更为精妙。皮尔逊相关系数 $\mathrm{corr}(\mathbf{r}_i, \mathbf{r}_j)$ 衡量了活动模式在所有体素上一起上升和下降的程度，而忽略了它们的整体基线活动和“对比度”（方差）。距离为 0 意味着模式具有完全相同的形状，即使其中一个比另一个“更亮”或“更暗”。

考虑一个简单的思想实验，有三个活动模式 $\mathbf{r}_1$ 、 $\mathbf{r}_2$ 和 $\mathbf{r}_3$ 。让 $\mathbf{r}_2$ 与 $\mathbf{r}_1$ 模式相同但强度是其两倍 ( $\mathbf{r}_2 = 2\mathbf{r}_1$ )，让 $\mathbf{r}_3$ 与 $\mathbf{r}_1$ 模式相同但在所有体素上有一个大的、均匀的基线活动增加 ( $\mathbf{r}_3 = \mathbf{r}_1 + c$ )。使用欧几里得距离的 RDM 会显示 $(\mathbf{r}_1, \mathbf{r}_2)$ 和 $(\mathbf{r}_1, \mathbf{r}_3)$ 这两对都有很大的非相似性，因为这些点在体素空间中相距很远。然而，使用相关距离的 RDM 会报告这两对的非相似性都接近于零。为什么？因为相关距离忽略了增益和基线的整体变化，纯粹关注活动模式的“形状”。

因此，这是一个科学选择。如果你认为只有相对活动模式携带信息，那么相关距离是你的工具。如果你认为绝对活动水平也有意义，那么欧几里得距离可能更合适。

抽象的力量：一种认知上的权衡

RDM 的真正天才之处不在于它捕捉了什么，而在于它舍弃了什么。通过将数据总结为这个成对关系的矩阵，我们实现了从初始测量中混乱、任意的细节中进行的强大抽象。

让我们回到高维体素空间中的那片活动模式云。如果我们把这整片点云平移（translation）或旋转到不同的方向（orthogonal transformation），我们的欧几里得距离 RDM 会发生什么变化？答案是：什么都不会变。点与点之间的成对距离保持完全相同。我们可以用数学证明这一点，也可以具体演示：如果你取一组模式向量，计算它们的 RDM，然后对所有向量应用一个旋转变换再重新计算，新的 RDM 将与旧的完全相同。

这种不变性是 RDM 的超能力。这意味着 RDM 不关心体素的具体坐标系。它提炼出了表征的内在几何结构，这种几何结构独立于我们用来测量它的坐标轴的方向。这让我们能够做到一些曾经似乎不可能的事情：我们可以有意义地比较你的大脑和我的大脑、人脑和猴脑，甚至是人脑和深度神经网络的表征几何！我们只需为每个系统计算一个 RDM，然后比较这些 RDM。我们在比较几何与几何，思维形状与思维形状，抛弃了那些特定神经元或体素的不可比较的“脚手架”。

这种力量伴随着一个必要而深刻的“认知上的权衡”。通过创建一个对坐标系不变的表征，我们明确放弃了依赖于该坐标系的信息。仅仅看一个 RDM，你再也无法说“体素 #18,357 对猫的反应很活跃”。关于特定坐标轴上绝对激活的信息已经消失了。我们用抽象、可比较的关系结构换取了具体、依赖坐标系的事实。这不是一个缺陷；正是这个特性使 RSA 成为认知神经科学的革命性工具。

驯服混乱的现实

现实世界并不像我们理想化的例子那样干净。神经数据充满噪声，而且这种噪声的结构如果我们不小心，就可能误导我们。

一个常见的问题，尤其是在处理像神经元放电计数这样的数据时，是噪声水平不是恒定的。通常，信号的方差随其均值增加——更强的反应也更嘈杂。这是泊松过程的特征。如果我们天真地对这些原始数据计算欧几里得距离，那些引起较高平均活动的条件对会仅仅因为它们有更大的噪声包络而显得更不相似，而不是因为它们的潜在表征真的更不同。这会系统性地扭曲几何结构。幸运的是，一个简单的数学变换，比如在计算距离前对计数取平方根，可以作为一种方差稳定化措施。它有助于确保无论平均活动水平如何，噪声对非相似性的贡献都大致相同，从而为我们提供一幅更忠实的真实表征几何图像。

此外，当我们比较两个 RDM 时——比如说，一个来自大脑，一个来自计算模型——我们必须小心统计。将每个 RDM 的非相似性向量化并计算一个简单的相关性是很诱人的。然而，RDM 中的条目不是独立的样本。非相似性 $D_{AC}$ 和非相似性 $D_{BC}$ 都依赖于条件 C 的神经模式。这种微妙的相互依赖性意味着假设独立性的标准统计检验会过于乐观，并可能导致虚假结论。一个优雅的解决方案是使用像置换检验这样的方法。我们可以将一个 RDM 中条件的标签随机打乱数千次，每次都与另一个 RDM 重新计算相关性。这会创建一个尊重数据内部复杂依赖结构的现实零分布，从而实现有效和稳健的统计推断。

最后，当我们询问一个模型的 RDM 与大脑的 RDM 匹配得有多好时，我们需要一个基准。我们到底能期望多高的相关性呢？大脑数据本身是有噪声的；另一组被试，甚至同一组被试在不同的一天，都会产生一个略有不同的 RDM。这种固有的可变性为任何模型能解释数据的程度设定了一个基本限制。这个限制被称为噪声上限。它是从数据本身估算出来的，通常通过测量单个被试的 RDM 与群体平均值的一致性来确定。噪声上限提供了一个重要的衡量标准：它告诉我们与我们测量中的噪声相一致的性能范围。一个性能落在噪声上限内的模型，其表现已经达到了预期水平；它是“与数据一致的”，已经捕捉到了所有可靠的可用结构。

通过这些原则——几何的抽象、度量的谨慎选择、对不变性的理解，以及对噪声和统计的复杂处理——表征非相似性矩阵为我们窥探大脑内部世界提供了一个强大而有原则的框架。它让我们超越了对局部激活的清点，开始理解神经表征那美丽的高维之舞。

应用与跨学科联系

在理解了表征非相似性矩阵 (RDM) 背后的原理之后，我们现在可以踏上一段旅程，看看这个优雅的想法将我们引向何方。一个科学工具的真正力量不仅在于其内在逻辑，还在于它为我们打开的认识世界的新窗口。RDM 不仅仅是一种数据分析技术；它是一面透镜，一种共同语言，一块“罗塞塔石碑”，让我们能够比较像活体大脑、基于硅的人工智能，甚至抽象理论模型这样不同系统中的复杂活动模式。通过从特定的“硬件”——无论是神经元还是晶体管——中抽象出来，RDM 捕捉了纯粹的信息几何。它提出了一个简单而深刻的问题：当面对同一组事物时，这两个系统是否以相似的方式组织它们？让我们来探索这个简单的问题如何在不同的科学前沿领域带来丰富的见解。

连接思维与机器

也许 RDM 当今最激动人心的应用是在蓬勃发展的计算神经科学领域，我们致力于通过构建能复制大脑功能的模型来理解大脑。几十年来，我们只能在表层水平上比较模型和大脑——模型是否执行相同的任务？但有了 RDM，我们现在可以窥探其“内部”。

想象一下，我们正在研究灵长类大脑的腹侧视觉通路，这是负责物体识别的通路。我们给一只猴子看一系列图像——一张脸、一辆车、一把椅子——并记录其颞叶中一群神经元的电信号。同时，我们向一个深度卷积神经网络 (CNN)，一种最先进的视觉人工智能模型，展示完全相同的图像。我们从猴脑中的神经放电模式构建一个大脑 RDM。对于任意两张图像，大的非相似性值意味着大脑为它们产生的神经模式非常不同；小的值则意味着它们很相似。然后，我们对 CNN 的一个层做同样的事情：我们像对待真实神经元一样对待它的人工神经元，计算其对每对图像的激活模式之间的非相似性，并构建一个模型 RDM。这个过程不仅仅是高层次的类比；人们可以编写代码，对一个模拟的网络层输入图像，并计算出一个精确捕捉该层表征几何的 RDM。

现在我们有了两个矩阵，一个来自大脑，一个来自机器。最后，美妙的一步是简单地将它们进行相关分析。如果相关性很高，就意味着该模型学会了以一种与大脑惊人相似的方式来组织世界。它告诉我们，几何关系——即表征的“形状”——是共享的。这种强大的方法使我们能够检验关于哪种人工智能架构最像生物视觉的假设，甚至可以精确定位深度网络中的哪些层与大脑中处理的哪个阶段最匹配。

可视化思维的“形状”

一个原始的 RDM 是一张数字网格，虽然它包含了丰富的信息，但并不能立即提供一个直观的图像。我们如何才能看到大脑强加给世界的结构呢？两种强大的可视化技术，都从 RDM 出发，让我们能够做到这一点。

一种方法是层次聚类。可以把它想象成是为刺激物创建一个“家族树”，就像大脑看到的那样。该算法从每个刺激物作为独立的个体开始。然后，它查看 RDM，找到两个最相似的刺激物（非相似性最小的一对），并将它们合并成一个“兄弟”对。它继续这个过程，合并下一个最接近的对，或将新的刺激物合并到现有集群中，始终使用 RDM 来决定谁与谁最相似。结果是一个树状图，一种分支树形图。一目了然，这棵树揭示了大脑的表征分类学。所有的面孔都聚集在一个分支上吗？动物图像是否与无生命物体形成了不同的分支？分支的长度告诉我们集群之间的非相似程度，为我们提供了大脑内部归档系统的丰富、直观的图像。

另一种互补的方法是多维缩放 (MDS)。如果说聚类给了我们一棵家族树，那么 MDS 就给了我们一张地图。MDS 的目标是将所有刺激物排列为 2D 或 3D 图上的点，使得图上点与点之间的距离能够反映 RDM 中的非相似性。如果 RDM 显示刺激物 A 和 B 非常不相似，MDS 会将它们在地图上放置得很远。如果 C 和 D 非常相似，它们就会靠得很近。由此产生的点的“星群”提供了表征空间的快照。当我们看这样的图时，必须记住一个关键的微妙之处：地图的绝对方向是任意的。我们可以旋转它、翻转它或四处移动它，而不会改变关键信息，即点之间的距离集合。这是因为 RDM 本身只包含关系信息。MDS 图使这种几何结构变得具体可感。

裁定理论与厘清表征

科学的进步常常通过让相互竞争的理论一较高下来实现。RDM 框架是这类竞赛的完美舞台。假设我们有两个关于物体识别的理论。理论 1 认为大脑使用离散类别，因此它创建了一个简单的模型 RDM，其中所有类别内的对的非相似性为 0，所有类别间的对的非相似性为 1。理论 2 声称大脑使用连续的特征空间（例如，“尖锐度”或“圆润度”）。我们可以基于这些特征距离构建第二个模型 RDM。通过将这两个模型 RDM 与实际的大脑 RDM 进行比较，我们可以看到哪个理论的预测更好地得到了数据的支持。

但如果现实更复杂呢？如果大脑的表征是多种因素的混合体怎么办？这时，一种更先进的技术——多元回归 RSA 就派上用场了。我们不再只是将大脑 RDM 与一个模型进行一次相关分析，而是可以建立一个线性模型，尝试将大脑 RDM 解释为多个模型 RDM 的加权和。例如，我们可能尝试用“颜色”模型、“形状”模型和“类别”模型的组合来预测大脑的几何结构。回归分析会返回每个模型的最佳拟合权重，告诉我们这些特征各自对大脑整体表征结构的独特贡献。

这个回归框架也为我们提供了一个强大的科学严谨性工具：控制混淆变量。假设一个复杂的物体身份模型与大脑显示出高度相关。我们必须持怀疑态度。这种相关性是否可能是由一个更简单的“混淆”变量驱动的？例如，也许两张面孔图像在大脑和模型中都以相似的方式被表征，不是因为它们的高层身份，而仅仅是因为它们共享低级像素统计数据。为了检验这一点，我们可以构建一个基于原始像素相似性的混淆 RDM。然后我们使用多元回归来问：“在我们解释了所有可以由简单像素相似性解释的方差之后，我们的物体模型是否仍然能解释剩下的部分？”这确保了我们的结论是稳健的，而不仅仅是更简单属性的产物。

观察思维的展开：时间维度

大脑不是一台静态的计算机；它是一个动态、演化的系统，信息处理在毫秒间展开。借助脑磁图 (MEG) 或脑电图 (EEG) 等高时间分辨率技术，我们可以捕捉到这种闪电般的活动。这为时间分辨 RSA 打开了大门。

我们不再为整个 fMRI 扫描计算一个 RDM，而是可以为刺激呈现后大脑活动的每一毫秒计算一个单独的 RDM。这给了我们一个 RDM 的“电影”，展示了大脑的表征几何如何随时变化。然后我们就可以提出极其精确的问题。当你看到一张脸时，大脑的几何结构是首先反映图像的低级属性（如亮度和对比度），然后在 150 毫秒后才“啪”地一下转变为反映面孔身份的构型吗？通过将不同的模型 RDM（例如，低级模型与高级分类模型）与这个 RDM 电影进行相关分析，我们可以追踪一个思想在被大脑构建过程中的轨迹，一毫秒一毫秒地进行。

从相关到因果：前沿领域

我们必须以科学的谦逊来结束，因为只有在理解一个工具的局限性时，我们才能学会最明智地使用它。一个大脑 RDM 和一个模型 RDM 之间的高度相关性，即使达到了“噪声上限”（考虑到数据噪声可能达到的最大相关性），也是一个深刻的发现。它确立了表征几何上的深层相似性。但它本身并不能证明机制同一性。

RDM 对某些变换是不变的，最显著的是特征空间的旋转。这意味着两个系统可以使用完全不同的底层特征集（一个系统的特征是另一个系统的特征的线性重组或旋转），但却产生完全相同的 RDM。它们找到了导致相同关系结构的不同解决方案。

那么，我们如何从这种强大的相关性证据走向更强的因果声明呢？RSA 的前沿在于从被动观察转向主动干预。如果一个模型真的是大脑机制的良好替代品，它不仅应匹配静态表征，还应预测在受到扰动时这些表征将如何变化。我们可以利用模型设计有针对性的新刺激，并测试它们是否如模型预测的那样改变大脑的表征几何。一个更强大的想法是“因果对齐”，即可能找到模型神经元和大脑神经元之间的显式映射，然后测试对它们进行干预（例如，在模型中进行“损毁”，在大脑中进行光遗传沉默）是否会产生一致的下游效应。

这就是科学的本质：每一个新工具都回答了旧问题，并在此过程中，让我们能够提出更新、更深层次的问题。表征非相似性矩阵给了我们前所未有的能力来比较复杂的信息系统，但它最大的贡献可能在于为前进的道路指明方向，引导我们从询问大脑表征“什么”最终走向理解“如何”和“为什么”。