
许多复杂系统,从社交圈到生物学通路,并非随机缠结的连接,而是被组织成不同的社群。虽然观察到这些“团块”是一回事,但理解生成它们的基本原理则提出了更深层次的挑战。这正是分块模型作为一种强大的统计框架出现的领域。它超越了简单的聚类,提供了一种生成模型——一个配方——来解释网络结构如何从潜在的群体归属中产生。本文是对这一基本概念的介绍。在“原理与机制”一章中,我们将剖析随机分块模型(SBM)的核心思想、其优雅的数学公式,以及处理现实世界复杂性的关键扩展,如度矫正。我们还将探讨揭示这些隐藏结构时固有的挑战和理论极限。随后,“应用与跨学科联系”一章将展示分块模型卓越的通用性,揭示它如何为生物学、金融、神经科学等领域的网络提供关键见解。
想象一下,你的任务是创建一个合成世界,一个高中的友谊网络。根据经验,你知道这样的网络不仅仅是随机混乱的连接。它们具有结构。9年级的学生与同为9年级的学生成为朋友的可能性远大于与12年级的学生。这个网络是“块状”的,年级内部连接密集,而年级之间连接稀疏。你会如何编写一个计算机程序来生成这样的网络呢?
你可能会从一个简单的配方开始。首先,将每个学生分配到一个“分块”中,在这里就是他们的年级。其次,创建一个规则手册——一个小的概率表——它仅根据学生所属的分块来规定任何两个学生之间形成友谊的几率。例如,两个9年级学生成为朋友的概率可能是0.1,而一个9年级学生与一个12年级学生交朋友的概率可能只有0.005。最后,你会遍历学校里每一对可能的学生,根据规则手册投掷一枚有偏的硬币,如果硬币正面朝上,就画一条线代表友谊。
你刚才发明的,就是随机分块模型(SBM)。它是一个用于具有社群结构的网络、既简单又强大的生成模型。其核心假设是一种优雅的简化:整个复杂的连接网络可以仅由两个要素来解释:(1)将节点划分为“分块”的隐藏划分;(2)一个定义这些分块之间连接性的概率矩阵。该模型的关键特征是条件独立性:一旦我们知道了每个节点所属的分块,每条边的形成都是一个独立的事件,一次独立的掷硬币过程。
这种块状、模块化的结构思想并非高中友谊所独有。它是复杂系统的一个近乎普遍的特征。在生物学中,属于同一分子机器或代谢通路的蛋白质彼此相互作用的频率远高于与来自其他通路的蛋白质的相互作用。SBM 的最简单版本,通常被称为植入划分模型(PPM),完美地捕捉了这一点。它只使用两个概率:一个高的概率 用于同一分块内部的连接,和一个低的概率 用于不同分块之间的连接。当 时,我们得到所谓的同配社群结构,这是我们在各处看到的模块化组织的数学标志。
当然,世界并非总是如此“舒适”。有时,节点会优先连接到不同类型的节点。这种异配结构,对应于 ,也很常见。想象一下食物网,其中捕食者连接到猎物,而不是其他捕食者;或者一个由科学家和他们撰写的论文组成的二分网络。SBM 框架足够灵活,可以为这两种现象建模。但如果 会发生什么呢?那么,分块标签就变得无关紧要了。任何一对节点之间存在边的概率都相同,网络就变成了一个由 Paul Erdős 和 Alfréd Rényi 首次研究的、巨大的、无结构的随机图。在这种情况下,植入的社群结构对于网络拓扑来说是完全不可见的;试图找到它就像在充满均匀静电噪声的天空中寻找星座一样。
扮演上帝,根据已知的蓝图构建网络是一回事。但我们能对由此产生的网络结构说些什么呢?如果我们对来自同一SBM配方的许多、许多网络进行平均,这个“平均网络”会是什么样子?这个平均值由期望邻接矩阵捕获,该矩阵的元素 就是节点 和节点 之间存在边的概率。
对于随机分块模型,这个蓝图呈现出一种惊人简单而优雅的形式。如果我们将分块分配编码在一个成员关系矩阵 中,并将分块间的连接规则编码在一个矩阵 中,那么期望邻接矩阵由下式给出:
让我们停下来欣赏一下这个方程。在左边,我们有 ,一个可能巨大的 矩阵,描述了我们整个网络的理想化结构。在右边,是三个矩阵的乘积。矩阵 大部分是空的;它是一个 矩阵,仅仅标记了 个节点中每个节点属于 个分块中的哪一个。矩阵 很小;它只是那个 的块间概率“规则手册”。这个方程告诉我们,网络蓝图的巨大复杂性从根本上受限于少数隐藏社群的数量。在数学上,它表示矩阵 的秩不能大于 ,即分块的数量。这是一个关于复杂性中隐藏着简单性的深刻陈述:看似混乱的网络,平均而言,由一个低维结构所支配。
这个框架也揭示了一个根本性的微妙之处。想象我们有一个针对9年级和10年级学生的双社群SBM。我们可以将9年级学生标记为“分块1”,10年级学生标记为“分块2”。或者,我们也可以同样轻松地交换这些标签。只要我们同时交换规则手册矩阵 中相应的行和列,任何两个学生成为朋友的最终概率保持不变。生成的网络在统计上是相同的。这是一种由于标签交换导致的不可识别性:模型本身没有为标签“1”或“2”提供绝对的意义;只有它们的区别性才重要。这不是一个缺陷,而是我们解读分块模型结果时必须时刻牢记的一个问题的基本对称性。
托尔斯泰的小说开头有一句名言:“所有幸福的家庭都是相似的;每个不幸的家庭各有各的不幸。”简单的SBM遭受了一种反向的“安娜·卡列尼娜原则”:它假设一个分块内的所有节点都是相似的。它们被视为随机等价的,意味着它们都有相同的期望连接数。这就像假设9年级每个学生的朋友数量都相同,或者一个功能模块中每个蛋白质都同等重要。
快速浏览任何真实世界的网络——无论是社交、生物还是技术网络——都会发现这显然是错误的。真实网络中充满了各种各样形形色色的角色。它们有拥有大量连接的、极受欢迎的“枢纽”节点,也有连接很少的、安静的、边缘的节点。度的分布(每个节点的连接数)通常是重尾的,跨越多个数量级。标准的SBM通过强制一个分块中的所有节点具有相同的期望度,未能捕捉到这种根本性的异质性。
为了解决这个问题,一个卓越的扩展被提了出来:度矫正随机分块模型(DCSBM)。DCSBM为每个节点引入一个新参数 ,它代表了该节点形成连接的内在倾向——你可以把它看作是一个“受欢迎度”或“活跃度”参数。现在,节点 和 之间存在边的概率取决于三件事:节点 的受欢迎度()、节点 的受欢迎度(),以及它们所属分块之间的潜在亲和力 。
这个矫正的天才之处在于,它将节点特有的、微观层面的度属性与宏观层面的社群结构属性解耦。现在,模型可以同时解释枢纽节点和同配社群。它允许托尔斯泰意义上的“不幸的家庭”:同一社群内的节点可以在其连接性上是独特的,各有各的方式。这种增加的灵活性至关重要,因为它使模型能够拟合更广泛的真实世界网络。而且它做得非常优雅:如果事实证明一个分块中的所有节点确实具有相同的度倾向,DCSBM就会简化回普通的SBM。
到目前为止,我们一直扮演着创造者的角色,根据一组已知的规则构建网络。然而,真正的科学探索是逆向问题:我们得到一个单一的、混乱的、真实世界的网络,我们必须扮演侦探。我们能否推断出最有可能产生它的隐藏分块结构?这就是推断的巨大挑战。
指导原则通常是最大似然估计(MLE)。我们寻找能使我们实际观察到的网络成为最可能结果的分块分配和模型参数集。这是一个极其困难的计算任务。对于一个只有几十个节点的小型网络,将其划分为不同分块的可能方式数量就超过了宇宙中的原子数量。我们无法一一检查。因此,我们依赖于聪明的算法,这些算法通过迭代地改进初始猜测来找到一个高似然解。
即使有这些算法,深层次的挑战依然存在。首先是模型选择:我们到底应该寻找多少个分块,即 的值?如果使用的分块太少,我们可能会错过重要的结构。如果使用的太多,我们就有“过拟合”的风险——将我们观察到的这个网络中的随机巧合误认为是真实的潜在模式。一种有原则的方法是使用像贝叶斯信息准则(BIC)这样的标准,它优雅地平衡了模型的拟合优度与其复杂性。它对模型使用的每一个额外参数施加惩罚,从而偏爱更简单的解释而非更复杂的解释。
第二个更深刻的问题是:即使社群存在,我们总是能找到它们吗?惊人的答案是否定的。我们的视觉存在一个根本的极限。在稀疏网络中,如果社群结构的“信号”( 和 之间的差异)与随机连接的“噪声”相比太弱,社群就变得不可检测。存在一个急剧的相变,一个被称为Kesten-Stigum 界的临界阈值。低于这个界限,任何算法,无论多么聪明,其表现都不会比随机猜测更好。信息根本就不在数据中;社群虽然存在,但它们永远对我们隐藏。
最后,即使社群在原则上是可检测的,我们的方法也可能出奇地脆弱。一种常见而强大的寻找社群的技术是研究网络邻接矩阵的特征向量。对于一个理想的SBM,第二个特征向量会奇迹般地与真实的社群结构对齐。然而,在真实的稀疏网络中,这种方法可能会被欺骗。一个单一的、异常高阶的节点——一个枢纽节点——可能会产生一个强大的局部扭曲。主导特征向量不再揭示全局的社群景观,而是可能“局域化”在这个枢纽及其直接邻居上,就像一束聚光灯固定在舞台上最亮的演员身上,而忽略了戏剧的其余部分。这使得该方法在寻找社群方面变得无用。
有出路吗?在一个美妙的转折中,数学家们发现了一个巧妙的解决方案。我们不分析描述节点间连接的邻接矩阵,而是可以分析非回溯矩阵。这个矩阵描述了沿网络边线的长度为2的路径,但有一个简单的规则:不允许立即反向。这个看似微小的改变产生了巨大的效果。它使得谱分析对导致局域化的枢纽周围简单的树状结构“视而不见”。通过忽略这些局部的干扰,非回溯矩阵的主导特征向量能够再次感知到全局的社群结构,恢复我们看到定义网络架构的团块和集群的能力。这段旅程——从一个简单的模型,到它的局限性,到它的理论阈值,再到对其在实践中失败的巧妙数学修正——本身就是科学过程的一个缩影,揭示了抽象数学与我们周围世界的有形结构之间深刻而常常令人惊讶的统一性。
既然我们已经掌握了分块模型的数学核心,我们就可以开始一段真正激动人心的旅程。就像一位物理学家,在理解了引力定律之后,突然在苹果的下落、月球的轨道和星系的旋转中看到了它的印记一样,我们现在也可以开始在我们周围的世界中看到分块模型的印记。我们已经学到,随机分块模型(SBM)不仅仅是一种对网络中节点进行聚类的配方,它是一个生成原则。它提出了一个异常简单的思想:我们所看到的错综复杂的连接网络,通常只是无形的群体归属所留下的可见痕迹。有了这个强大的透镜,我们现在可以审视来自生物学、金融甚至我们自己心智的网络,不仅要问结构是什么,还要问为什么会是这样。
让我们从生命本身的蓝图开始:我们的生物学。考虑一个细胞内巨大的基因网络。它们相互作用,相互调节,形成一幅复杂的连接织锦。一位生物学家想知道:是否存在协同工作以执行特定功能(如修复DNA或代谢糖)的基因团队?这些团队就是我们所说的功能模块。分块模型是完成这项任务的完美工具。通过将SBM拟合到基因-基因相互作用网络,我们将基因划分为“分块”。模型告诉我们,同一分块内的基因彼此相互作用的可能性远大于与来自其他分块的基因。那么,这些分块就是我们候选的功能模块。
但自然界很少如此简单。在任何团队中,一些成员更活跃,连接更多——他们是“枢纽”。一个简单的SBM假设一个分块的所有成员在统计上是等价的,这就像假设一个足球队中的每个球员触球的次数相等一样。这不现实。这时,一个卓越的扩展——度矫正SBM(DC-SBM)就派上用场了。它允许同一分块内的节点拥有自己独特的“名人地位”或度。DC-SBM可以正确识别一个功能模块,即使该模块同时包含一个高度连接的枢纽基因及其连接较少的伙伴,这是许多更简单的方法(如模块度最大化)所无法做到的。
分块模型的力量甚至更深。它可以作为一个复杂的“零模型”——一个基准,告诉我们什么才是真正令人惊讶的。想象一下,你发现一种特殊的基因调控三角模式,称为“前馈环”,在你的网络中非常频繁地出现。这是一个重大的发现吗?自然界是否对这种电路表现出特别的偏好?也许是。但也许这只是网络整体社群结构的一个无聊后果。如果A分块中的基因与B分块密集连接,B与C密集连接,A与C也密集连接,那么你就会看到大量这样的环路,而没有任何特殊的“设计原则”。SBM允许我们构建一个与我们真实网络具有完全相同社群结构的随机世界。然后我们可以计算这个随机世界中环路的期望数量。只有当我们真实网络中的环路数量显著高于这个基于SBM的期望值时,我们才能自信地宣称我们发现了某些特别的东西。SBM就像一副眼镜,过滤掉预期的东西,让真正非凡的模式脱颖而出。
同样的逻辑适用于生物医学的广阔领域。在一个由药物及其蛋白质靶点组成的二分网络中,我们可能想找到作用于相似蛋白质群组的药物群组。一个简单的方法可能只能找到“同配”模块,即药物组1作用于靶点组1,药物组2作用于靶点组2,等等。但SBM更加灵活。它可以揭示更丰富的交互语法:也许药物组1主要作用于靶点组2,而药物组3沉默靶点组1——这是一种复杂的、“异配”模式,可能会揭示新的治疗策略或脱靶效应。当两种方法(如SBM和更简单的模块度方法)产生分歧时,SBM能够建模这些更丰富模式的能力往往是原因所在。我们甚至可以使用SBM进行“后验预测检验”,这是一种强大的统计诊断方法,用以检验它发现的复杂结构是否能解释其他方法看到的更简单的模式,从而为在不同模型之间做出裁决提供了一种方式。
这个原则可以一直扩展到人。在医学心理学中,研究人员可以构建一个网络,其中患者根据其心理特征——他们的韧性、乐观主义和应对机制——的相似性进行连接。通过将SBM应用于这个网络,他们可以发现具有不同“韧性特征”的潜在患者亚群。然而,这样一个发现的真正考验,不仅仅是描述现在,而是预测未来。最严谨的研究使用这些基于SBM的基线分组来预测未来的健康结果,如住院次数或压力荷尔蒙水平,这种方式是非循环的,并考虑了其他混杂因素。这是一个将分块模型作为发现工具的美好例子,从一个静态的相似性地图转向对人类健康的动态、预测性理解。
从细胞到自我,我们现在转向我们共同构建的结构:我们的经济和社会。考虑全球金融体系,一个由银行相互借贷形成的错综复杂的网络。监管机构担心“系统性风险”,即一家银行的倒闭可能在整个系统中引发连锁反应。这些网络的一个关键特征是核心-边缘结构。少数大型机构形成一个紧密互联的“核心”,而数量更多的较小机构形成一个主要与核心相连的“边缘”。一个包含两个分块——一个用于核心,一个用于边缘——的SBM为描述这种情况提供了完美的、有原则的语言。该模型会找到一个内部连接概率高( 高)的分块和一个内部连接概率低( 低)但两者之间有显著连接( 高)的第二个分块。这是一种比简单地看哪些银行连接最多来识别系统骨干的更稳健的方法,并且对于理解金融冲击如何传播至关重要。
也许我们所知的最复杂的网络是人脑。神经科学家长期以来一直在争论其基本组织原则。有一段时间,许多大脑网络似乎是“无标度”的,其度分布遵循幂律,这暗示了一种自相似、类似分形的组织。然而,SBM提供了一个引人注目的替代假说。如果大脑并非真正的无标度,而是由功能性分块组成,其中一些是具有异常高连接性的“枢纽分块”呢?具有这种结构的SBM可以产生一个模仿幂律的度分布。这就产生了一个深刻的科学难题:大脑的架构是由无标度生长过程支配,还是由模块化的、块状的组织支配?通过设计仔细的统计检验,比较真实幂律的拟合优度与分块结构证据的优劣,研究人员可以使用SBM来探究这些关于我们自己心智本质的基本问题。
SBM框架的真正美妙之处在于其非凡的灵活性。世界不是一个单一、静态的图。它是动态的、多层的、和分层的——而SBM可以被扩展来捕捉所有这些。
运动中的网络: 真实世界的互动是演变的。细胞间的通信模式在响应刺激时会发生巨大变化。通过构建一个时序SBM,我们可以对这种动态性进行建模。我们不再只有一个在分块 和分块 之间的连接概率,而是有一个随时间变化的概率 。然后我们可以使用统计技术,如动态规划,来问:在哪些具体的时间点,游戏规则发生了改变?时序SBM可以精确定位这些“变点”,揭示系统重组的精确动态,这是静态快照系列永远无法做到的。
一个多网络的世界: 我们的社会生活不是在一个单一网络上进行的;我们同时是家庭网络、工作网络和友谊网络的一部分。这是一个*多层网络*。我们可以通过定义一个多层SBM来对此进行建模,其中每一层都可以有自己的分块结构。但真正的魔力来自于“耦合”这些层。模型可以纳入一个合理的假设,即一个人的潜在身份在不同情境下是某种程度上一致的。一个参数 控制这种耦合的强度,鼓励一个节点在不同层中属于同一个分块。通过拟合这样一个模型,我们可以推断出对个体在其整个社交世界中角色的更稳健、更全面的理解。
组织的俄罗斯套娃: 许多复杂系统像俄罗斯套娃一样组织起来,模块嵌套在更大的模块中。想想一所大学:研究小组在系里,系在学院里,学院组成大学。细胞中的化学反应网络也是如此:小的代谢途径嵌套在更大的代谢循环中。一个简单的SBM找到一个单一的、扁平的划分。但是一个嵌套或层次SBM旨在揭示这种多尺度结构。它是一个建立在树上的生成模型,其中叶子上的细粒度社群被相继合并成分支上更粗粒度的超社群。这为理解层次化组织提供了一个有原则的、概率性的框架,而这种组织是自然和工程系统中复杂性的一个标志。
我们的旅程带领我们从基因到脑细胞,从金融市场到心理特征。在每一种情况下,随机分块模型提供的不仅仅是聚类;它给了我们一种语言来表达关于底层结构的假设,以及一个统计引擎来检验它。
SBM及其众多变体之所以如此强大和通用,是因为它们与网络的基本数学特性——特别是其谱特性——紧密相连。SBM所偏好的连接模式被编码在网络邻接矩阵(或相关算子)的特征向量中。这在离散的、概率性的社群模型和连续的线性代数世界之间提供了一个深刻的联系。像节点嵌入这样的方法,将节点映射到向量空间中的点,可以看作是SBM离散划分的连续对应物。它们之所以能成功地找到社群结构,恰恰是因为分块的“信号”足够强,能够从个体边放置的随机噪声中浮现出来——这个条件由像 Kesten–Stigum 阈值这样的理论结果正式捕捉。
归根结底,分块模型是一个宏大科学传统的证明:寻找能够解释惊人多样的现象的简单、统一的原则。一个隐藏的群体划分可以生成我们观察到的复杂网络,这个想法就是这样一个原则。这个想法既足够简单易懂,又足够灵活多变,也足够深刻,能够继续为我们试图理解的这个相互连接的世界产生新的见解。