try ai
科普
编辑
分享
反馈
  • 表征差异矩阵

表征差异矩阵

SciencePedia玻尔百科
核心要点
  • 表征差异矩阵 (RDM) 通过绘制系统对刺激响应之间的成对差异,捕捉该系统组织信息的抽象几何结构。
  • 表征相似性分析 (RSA) 使用等级相关,以一种稳健的方式定量比较来自不同系统(如大脑和人工智能模型)的 RDM。
  • 通过为混淆因素建立模型,RSA 可以剖析神经表征,以分离出大脑区域编码的特定特征。
  • 时间泛化矩阵源自时间分辨的 RDM,通过展示表征几何结构如何在毫秒尺度上变化和稳定,揭示了神经处理的动态过程。

引言

大脑如何组织其接收到的海量信息,将原始的感官输入转化为连贯的思想和概念?解开这种神经编码是神经科学的核心目标之一,然而,大脑活动的极端复杂性使得直接解读成为一项巨大的挑战。我们无法简单地从神经元的放电模式中“读出”一个像“猫”这样的概念。这一差距要求我们采用一种更抽象的方法——一种不关注实现细节,而是关注表征本身底层结构的方法。本文介绍的表征差异矩阵 (Representational Dissimilarity Matrix, RDM) 正是这样一种巧妙的解决方案,它通过捕捉“思维的几何结构”来解决这个问题。

首先,在​​原理与机制​​部分,我们将探讨 RDM 背后的核心理论,详细说明如何从神经数据中构建 RDM,并使用表征相似性分析框架对其进行严格比较。随后,在​​应用与跨学科联系​​一章中,我们将展示该方法的非凡力量,揭示 RDM 如何充当桥梁,用于比较生物大脑与人工智能、描绘认知的高速动态,甚至为古老的意识之谜提供新的实证视角。

原理与机制

想象一下,你想了解一个朋友的大脑是如何组织“动物”这个概念的。你不能直接将一根电缆插入他的大脑来下载一张地图。但你可以尝试一些更简单的方法。你可以问他一系列问题:“从1到10,猫和狗有多大不同?猫和鲸鱼呢?海豚和鲨鱼呢?” 在你问完所有动物对之后,你会得到一个表格——一个矩阵——其中每个条目都代表两种动物之间感知到的“差异性”。这个表格不会告诉你你朋友心目中的“猫”是什么,但它会揭示他动物概念空间的结构。你可能会发现哺乳动物聚集在一起,或者食肉动物不论其类别如何都被视为相似。你已经捕捉到了他思维的几何结构。

这就是​​表征差异矩阵 (RDM)​​ 背后的核心思想。它是一种非常巧妙的工具,让神经科学家能够捕捉大脑、计算模型或行为中表征的几何快照,并以严谨、定量的方式比较这些几何结构。

思维的几何

RDM 本质上是一个方形对称矩阵,其中每个条目 dijd_{ij}dij​ 记录了大脑对刺激 iii 和刺激 jjj 的响应之间的差异性。对角线上的条目 diid_{ii}dii​ 恒为零,因为任何事物与自身都没有差异。这个简单的对象具有深远的属性。它是一个表征空间的抽象描述,脱离了空间本身的具体细节。

考虑两个人,他们的大脑以类似的方式表征动物——猫与狗相近,鲸鱼与蜥蜴相远。然而,编码这些信息的特定神经元群在他们各自皮层中的物理位置可能完全不同。在高维的体素活动空间中,一个人的“动物空间”可能是另一个人的旋转或翻转版本。然而,由于刚性旋转或反射不会改变点与点之间的距离,他们的 RDM 将是相同的。RDM 捕捉了内在的关系结构——即真正的表征几何——同时对神经元的空间布局等具体的“实现细节”保持不变。它是一个表征的指纹。

从神经模式到抽象形状:构建RDM

为了从大脑数据中构建一个 RDM,我们首先需要测量大脑对一组刺激的反应。使用像 fMRI 这样的技术,我们可以为每个刺激获得跨越多个体素(大脑扫描的3D像素)的激活模式。每个模式都可以被看作是高维“体素空间”中的一个点。我们的任务是定义这些点之间的“距离”或“差异性”概念。

有几种方法可以做到这一点,每种方法都有其自身的几何直觉。

一个常见的选择是​​欧几里得距离​​,即体素空间中两点之间的直线“标尺”距离。这可能是衡量两个神经激活模式差异程度最直观的度量。

另一个更抽象且通常更强大的选择是​​相关距离​​,定义为 dij=1−r(xi,xj)d_{ij} = 1 - r(\mathbf{x}_i, \mathbf{x}_j)dij​=1−r(xi​,xj​),其中 rrr 是刺激 iii 和 jjj 的激活模式之间的皮尔逊相关系数。这个度量有一个优美的特性:它对神经反应的整体强度或“增益”不敏感。想象一下,两个刺激引起的反应模式形状完全相同,但其中一个的强度是另一个的两倍(例如,所有神经元的放电率都加倍)。它们的欧几里得距离会很大,但因为它们的模式完全相关,所以它们的相关距离将为零。这通常是理想的,因为它表明这两个刺激是以一种根本相似的方式被编码的,仅仅在响应幅度上有所不同。

在某些情况下,这些不同的差异性度量可能有着深刻的联系。例如,如果首先对所有响应模式进行标准化(一种常见的预处理步骤,称为z-score标准化),那么它们之间的平方欧几里得距离将与在原始模式上计算的相关距离成正比。比例常数就是 2(n−1)2(n-1)2(n−1),其中 nnn 是特征(体素)的数量。这揭示了两种看似不同的数据观察方式之间美妙的数学统一性,向我们保证,对于标准化数据,两种方法都在捕捉相同的底层几何结构。

值得注意的是,并非所有的差异性度量都是生而平等的。有些,如欧几里得距离或向量间的​​角度距离​​,是真正的数学“度量”——它们遵循三角不等式(dik≤dij+djkd_{ik} \le d_{ij} + d_{jk}dik​≤dij​+djk​)等性质。而其他一些,如常用的相关距离(1−r1-r1−r),并不总能满足这一点,这意味着它们无法在没有失真的情况下被完美地呈现在一个简单的欧几里得空间中。这是一个微妙但重要的点,尤其是当我们希望使用多维尺度分析 (MDS) 等技术来可视化几何结构时。

使用RSA比较表征世界

一旦我们有了我们的 RDM——我们表征的“指纹”——我们就可以做一些非凡的事情:我们可以将它与其他指纹进行比较。这就是​​表征相似性分析 (RSA)​​ 的核心。我们可能想问:深度神经网络中的某个特定层是否以与人类初级视觉皮层相同的方式“看待”世界?或者,大脑对面孔的表征是否从早期视觉区域中基于特征的几何结构转变为更高级别区域中更具范畴性的结构?。

为了比较两个 RDM,比如说一个来自大脑的 D(brain)D^{(\text{brain})}D(brain) 和一个来自计算模型的 D(model)D^{(\text{model})}D(model),我们首先需要将它们转换为适合进行相关的格式。我们通过​​向量化​​矩阵来做到这一点——将它们变成一长串数字。为了正确地做到这一点,我们取出所有唯一的差异性值,这些值位于矩阵的上(或下)三角,并按一致的顺序排列它们。我们必须排除对角线上的零,并避免重复计算对称的条目,因为包含这些会人为地且不正确地偏倚我们的比较 [@problem-id:4147119]。这样我们就得到了两个向量,d(brain)\mathbf{d}^{(\text{brain})}d(brain) 和 d(model)\mathbf{d}^{(\text{model})}d(model)。

现在,如何比较它们?我们可以使用标准的皮尔逊相关,但我们面临一个挑战。我们两个 RDM 的单位可能完全不同——一个可能基于 fMRI 的 BOLD 信号变化,另一个可能基于计算机模型中的单元激活。简单的线性相关可能会失败。解决方案是使用​​斯皮尔曼等级相关​​。这种巧妙的方法首先将每个向量中的所有值转换为它们的等级(第一、第二、第三等),然后计算这些等级的皮尔逊相关。结果是一个只关心差异性顺序的度量。只要大脑和模型都认为(猫,狗)这对的差异性小于(猫,鲸鱼)这对,无论绝对数值如何,等级相关都会很高。这种对任何单调(保序)缩放的稳健性使得 RSA 如此强大,使我们能够比较截然不同的系统之间的表征几何。

科学家的工具箱:确保严谨性与意义

发现大脑 RDM 和模型 RDM 之间存在高相关性是令人兴奋的,但一个好的科学家必须持怀疑态度。我们如何知道我们的结果是真实的,而不仅仅是侥幸?我们又如何知道它不是由一个微不足道、无趣的因素驱动的呢?RSA 提供了一个工具箱来解决这些问题。

为了检验统计显著性,我们使用​​置换检验​​。在零假设下,即大脑和模型的表征结构之间没有真正的关系,刺激标签是任意的。我们可以通过随机打乱其中一个 RDM 的标签(这相当于同时置换其行和列),并重新计算它与另一个未打乱的 RDM 之间的相关性来模拟这个“零世界”。通过重复数千次,我们建立了一个纯粹由偶然产生的相关性分布。如果我们最初观察到的相关性在这个分布中是一个极端的离群值,我们就可以确信我们的发现具有统计显著性。

接下来,我们必须担心​​混淆因素​​。假设我们正在比较一组自然图像的 RDM。大脑和模型可能都仅仅对低级属性敏感,比如两张图像具有非常相似的像素亮度或相似数量的高频细节。这可能会产生一种相关性,我们可能会误认为是共享对更高级内容的理解。为了解决这个问题,我们可以基于这些低级特征构建​​混淆 RDM​​(例如,通过计算图像像素向量或其空间频谱之间的差异性)。然后我们可以使用多元回归来探究,我们的目标模型在解释了混淆因素所能解释的方差之后,是否还能解释大脑 RDM 中的方差。

最后,一旦我们有了一个我们认为是真实的且非微不足道的相关性,我们需要知道:它是一个好的相关性吗?大脑的信号是嘈杂的。即使一个完美的“真实”底层表征模型,也无法与我们的嘈杂数据完美相关。​​噪声上限​​为可达到的水平提供了一个基准。​​较低的噪声上限​​是对我们能从其他被试的平均值预测某个被试 RDM 的程度的估计,为具有真正预测能力的模型提供了一个基线。​​较高的噪声上限​​估计了“真实”(但未知)的群体 RDM 与嘈杂数据之间的相关性,为任何模型提供了一个理论上的上限。通过将我们模型的表现与这些上限进行比较,我们可以判断它是否正在接近数据所能告诉我们的极限。

通过这一系列有原则的步骤——从原始数据构建抽象几何对象,到稳健地比较它并严格地测试它——表征差异矩阵为我们窥探思维的结构提供了一个强大而优雅的框架。

应用与跨学科联系

现在我们已经熟悉了表征差异矩阵 (RDM) 的原理,我们可以开始一段更激动人心的旅程。一个伟大的科学工具的真正魅力不在于其内部机制,而在于它让我们能够探索的新世界。RDM 不仅仅是一个矩阵;它是一座概念的桥梁,一种“罗塞塔石碑”,让我们能够比较截然不同的系统——生物大脑、人工智能,乃至抽象理论模型——的“思想”。通过专注于纯粹的关系几何,RDM 使我们能够提出关于信息如何在这些不同领域中被构建和转换的深刻问题。现在,让我们来探索一下这段旅程能带我们去到的一些非凡之处。

连接心智与机器

现代科学中最激动人心的追求之一,是通过构建人工智能来理解我们自身的智能。几十年来,计算机科学家一直在开发人工神经网络,例如能够以惊人准确度“看”和分类图像的深度卷积神经网络 (CNNs)。但是,这些机器看待世界的方式和我们一样吗?

这不是一个哲学问题;这是一个经验性问题,而 RDM 恰好是回答该问题的完美工具。想象一下,我们取一组图像——人脸、汽车、动物和工具的图片——并将它们同时展示给一个人类(我们用 fMRI 测量其大脑活动)和一个 CNN。对于人类视觉系统的特定区域,比如被认为进行物体识别的颞下皮层,我们可以计算一个神经 RDM。这个矩阵捕捉了大脑自身对这些物体的“相似性空间”。同时,我们可以将完全相同的图像输入到 CNN 中,并从其某个层的激活模式中计算一个模型 RDM。

如果机器学会了以一种与大脑相似的方式来表征世界,那么它们的 RDM 的几何结构应该会匹配。一个被大脑视为与汽车“不相似”的猫,在 CNN 的表征中也应该是“不相似”的。我们可以通过简单地计算两个 RDM 条目之间的相关性来直接检验这一点。如果相关性很高,这就提供了强有力的证据,表明该人工层的计算原理可能捕捉到了关于那个大脑区域功能的某些真实情况。这种方法彻底改变了计算神经科学,将“建立一个大脑模型”的模糊目标转变为一个具体、可检验的研究计划。

超越简单相关:剖析表征

模型与大脑之间的高度相关是一个令人振奋的开端,但一个好的科学家总是一个怀疑论者。你可能会问:“如果模型是对的,但原因是错的呢?” 例如,一个基于抽象物体类别(例如,‘人脸’彼此相似,‘工具’彼此相似,但人脸和工具不相似)的模型 RDM 可能与一个大脑 RDM 相匹配。但如果只是碰巧人脸图像曲线更多,而工具图像直线更多呢?该大脑区域可能仅仅是对这些低级视觉特征做出反应,而我们的“类别”模型的成功将完全是一种错觉——一个混淆因素。

这正是 RDM 框架展示其统计复杂性的地方。我们可以建立多个模型,而不仅仅是一个。我们构建我们的主要假设 RDM(例如,类别模型),然后我们为所有我们能想到的替代假设和混淆因素构建其他 RDM——一个基于像素相似性的低级模型、一个形状模型、一个颜色模型等等。然后,我们可以使用多元回归或偏相关等统计技术来问一个更尖锐的问题:“在我们解释了所有低级混淆模型所能解释的方差之后,我们的类别模型是否还能解释神经 RDM 中的独特方差?”。这使我们能够剖析表征,并分离出大脑区域真正编码的特定特征。我们甚至可以引入一整套相互竞争的科学理论,每种理论都表示为一个 RDM,让它们在以大脑数据为最终裁判的擂台上进行较量,同时使用严格的统计检验来控制我们进行多重比较的事实。

时间中的表征:大脑的闪电般快速的电影

虽然 fMRI 为我们提供了关于表征在脑中何处存在的精美地图,但其时间尺度却很迟缓。看到和识别一个物体的实际过程是一个闪电般快速的计算级联,仅在几百毫秒内展开。为了捕捉这一点,我们需要一种具有更精细时间分辨率的技术,如脑磁图 (MEG) 或脑电图 (EEG)。

在此应用 RDM 框架开启了一个全新的维度:时间。我们不再是为整个 fMRI 扫描计算一个 RDM,而是可以为刺激呈现后大脑活动的每一毫秒计算一个单独的神经 RDM。这给了我们一幅大脑表征几何随时演变的“电影”。然后,我们可以采用一个理论模型 RDM——比如说,一个基于简单线条方向的模型——看看它何时与这不断演变的神经电影相关联。我们可能会发现它在 60 毫秒时相关。另一个基于物体类别的模型可能要到 150 毫秒才开始显示强相关性。通过这种方式,我们可以追踪大脑中信息处理的精确时间进程。

但我们还可以做一些更巧妙的事情。我们可以将大脑的几何结构与它自身在不同时间点的状态进行比较,而不是与一个固定的模型比较。我们可以问:“大脑在 100 毫秒时的表征几何与它在 110、120 或 300 毫秒时的几何有多相似?” 通过将每个时间点 t1t_1t1​ 的 RDM 与每个其他时间点 t2t_2t2​ 的 RDM 进行相关,我们可以构建一个称为​​时间泛化矩阵 (TGM)​​ 的精美地图。

这张图中的模式极具启发性。如果几何结构只在完全相同的时间点与自身相似(TGM 对角线上的一条亮线),这表明这是一个动态的、前馈的计算级联,其中神经编码在不断地被转换。然而,如果我们在对角线之外看到一个方形的高相关区域,这告诉我们一个特定的表征几何出现后,在一段时间内保持了稳定。这可能是一个记忆痕迹、一个稳定的思想或神经回路中循环处理的标志。TGM 为我们提供了大脑底层计算动态的视觉指纹。

从个体到共性:寻找通用编码

神经科学家面临的一个主要难题是,每个人的大脑都是独一无二的,不仅在其微小的解剖皱褶上,而且在其功能区域的布局上也是如此。在我大脑中代表“猫”的体素模式与你大脑中的模式完全不同。如果我们正在寻找心智的普遍原则,我们如何才能比较不同人之间的大脑活动呢?

RDM 已经提供了一个部分解决方案。通过从原始活动模式抽象到关系几何,我们进入了一个比较更有意义的空间。但我们可以更进一步。一种名为​​超对齐 (hyperalignment)​​ 的巧妙技术利用大脑对共同体验——比如观看同一部电影——的反应,来跨大脑创建一个“功能性”对齐。

这个方法有点像寻找一个通用翻译器。它为每个人的大脑计算一个转换,将其高维神经活动空间旋转到一个所有人共享的共同空间中。它通过找到能最佳对齐当被试体验相同刺激时神经活动轨迹的旋转来实现这一点。关键是,它不需要知道电影的任何内容;它只利用了大脑正在对相同的输入流做出反应这一事实。超对齐之后,每个个体大脑的特异性“噪声”在很大程度上被滤除,而共享的、由刺激驱动的信号被放大。然后,当我们在这个共同空间内计算 RDM 时,我们发现被试间表征几何的相似性显著增加,揭示了一个先前被隐藏的通用编码。

连接点滴:表征网络

到目前为止,我们主要将大脑区域视为孤立的计算岛屿。但当然,大脑是一个大规模互连的网络。不同区域如何协调它们的表征?这就引出了​​表征连通性 (representational connectivity)​​ 的概念。这个想法既简单又强大:我们构建一个图,其中的节点是不同的大脑区域。连接任意两个区域的边的权重被定义为它们各自 RDM 之间的相似性。

例如,听觉皮层和运动规划区之间的一条强边不仅仅意味着它们的活动水平同步起伏。它意味着它们共享一个共同的表征几何——它们根据一个相似的关系结构来组织实验条件(也许是不同的口语词汇)。这是一种更深刻、更有意义的连通性形式。一旦我们有了这个网络,我们就可以应用图论的所有强大工具来寻找在共享编码上运作的大脑区域“社群”,或者可能整合不同表征格式信息的“枢纽”。这将 RSA 从一个研究单个区域的工具提升为一个真正用于理解大脑分布式架构的系统级方法。

tackling the Big Questions: The Geometry of Consciousness

RDM 最深远的应用或许是在意识的科学研究中。有意识地看到某物和无意识地处理它,在大脑中有什么区别?这是一个困扰了哲学家和科学家几个世纪的问题。

想象一个实验,刺激物被短暂闪现,以至于在某些试验中,参与者报告清楚地看到了它们,而在另一些试验中,他们报告什么也没看到。我们可以使用 RSA 来观察这两种情况下的表征几何。一个引人入胜的假说是,信息可能在有意识和无意识的试验中都物理存在于大脑的活动中,但只有当它进入我们的意识时,才被组织成一个有意义的、抽象的结构。

使用我们已经讨论过的方法,我们可以为有意识和无意识的试验分别创建 RDM。关键是,我们必须使用先进的技术——比如交叉验证的距离和噪声上限——来确保我们不被信号强度的简单差异所迷惑。当我们检验一个高级别的类别模型(例如,“动物”vs.“物体”)对这些 RDM 的解释程度时,一个显著的模式可能会出现。类别模型可能对来自有意识试验的 RDM 显示出很强的拟合度,但对来自无意识试验的 RDM 完全没有拟合度。这将意味着意识不仅仅是信息的存在,而是其被组织成一个稳定的、抽象的、有用的几何结构。借助 RDM,我们对科学最深的奥秘之一获得了实证的把握。

从测试人工智能到描绘思维的动态,甚至探索意识的本质,表征差异矩阵已被证明是一个异常多功能和强大的思想。它告诉我们,要理解一个复杂的系统,我们不仅要看它的组成部分,还要看它们关系中那美丽而错综复杂的几何结构。