随机分块模型 (SBM)

玻尔百科

定义

随机分块模型 (SBM) 是网络科学中一种通过将节点分配到社区并定义组间连接概率来解释网络结构的生成模型。该模型被广泛应用于社区发现、链路预测和空模型分析，但其基础版本通常需要进行度校正以处理现实网络中的节点度异质性。

核心要点

随机分块模型 (SBM) 是一个生成模型，它通过将节点分配到社群并定义它们之间的连接概率来解释网络结构。
基本 SBM 在处理真实世界网络时遇到困难，因为它无法解释节点流行度（度异质性）的变化，从而导致错误的社群分配。
度校正 SBM (DCSBM) 通过添加节点特定的参数来改进该模型，使其能够在具有多样化度分布的网络中准确识别社群。
除了社群检测，SBM 框架还用于链接预测、模拟动态过程，以及作为模式分析的复杂零模型。

引言

定义复杂系统（从社交网络到生物相互作用）的错综复杂的连接网络中，包含着隐藏的结构。理解这些网络不仅需要罗列连接，更需要一个生成模型——一个解释其结构如何产生的“配方”。简单的随机图模型，如 Erdős–Rényi 模型，未能捕捉到真实世界网络最显著的特征：它们分裂成不同的社群或群体。本文深入探讨了随机分块模型 (SBM)，一个为弥补这一空白而设计的强大统计框架。

第一章“原理与机制”将解析 SBM 的基础配方，探索其数学基础，揭示其关键局限性，并介绍其必要的改进——度校正 SBM。随后，“应用与跨学科联系”将展示这一生成性视角如何在各个科学学科中应用，以发现隐藏模式、预测缺失信息，并为分析提供严谨的基准。我们的旅程始于一个核心思想：不是随机地，而是根据隐藏群体的蓝图来构建网络。

原理与机制

想象一下，你正在尝试描述一个社交网络——学校里的友谊网、科学家之间的合作，甚至是细胞内蛋白质之间的相互作用。当然，你可以创建一个包含每一个连接的巨大列表。但这就像通过列出每个像素的颜色来描述一幅画。技术上是完整的，但它没有告诉你其中美丽的结构：面孔、风景和故事。我们真正想要的是一个配方，一套简单的规则，可以生成一个在外观和感觉上都像真实网络的网络。这就是对生成模型的追求，而理解网络中社群的核心在于有史以来构想出的最优雅的配方之一：随机分块模型 (SBM)。

一个描绘集群世界的配方

让我们从最简单的网络配方开始。它被称为 Erdős–Rényi 模型，其过程如下：对于网络中每一对可能的人，我们抛一枚硬币。如果是正面，我们就在他们之间画一条线连接；如果是反面，我们就不画。就是这样。这产生了一个完全随机的图。虽然这个模型简洁优美，但对于我们关心的几乎所有网络来说，它都是一种拙劣的描述。真实的社交网络不是一团随机的混乱；它有结构。它有许多连接的流行人物，最重要的是，它有群体，或社群。你的朋友们彼此成为朋友的可能性，远大于他们与全国某个随机的人成为朋友的可能性。

这一观察是引出随机分块模型的关键洞见。如果我们改进我们的配方会怎样？我们不再对每一对都使用相同的硬币，而是首先将所有人分成若干组。然后，我们根据两个人是在同一组还是在不同组，使用一种不同的硬币。这个简单的两步过程就是 SBM 的精髓。

分配角色： 首先，取所有 $n$ 个节点（我们的人、蛋白质等），并将每个节点分配到 $K$ 个隐藏的组或块之一。这些块代表我们试图建模的潜在社群。
基于角色进行连接： 现在，对于每一对节点，我们查看它们的块分配。如果它们都属于同一个块，我们以某个概率连接它们，比如说 $p_{\text{in}}$ 。如果它们属于不同的块，我们以另一个概率 $p_{\text{out}}$ 连接它们。

这就是基本的配方。仅用少数几个参数——社群分配和连接概率——我们就可以生成具有内置社群结构的合成网络。当组内连接的概率高于组间连接的概率（ $p_{\text{in}} > p_{\text{out}}$ ）时，我们得到所谓的同配社群，即我们在友谊网络中看到的熟悉的、紧密结合的簇。但 SBM 更为通用。如果我们设置 $p_{\text{in}} p_{\text{out}}$ ，我们可以模拟异配结构，例如捕食者和猎物网络，其中组间连接比组内连接更常见。

当我们看到 SBM 与更简单的 Erdős–Rényi 模型的关系时，SBM 真正的优雅之处就显现出来了。如果我们把概率设为相同， $p_{\text{in}} = p_{\text{out}} = p$ ，会发生什么？在这种情况下，块分配变得完全无关紧要。一个节点属于哪个组不再重要；所有节点对的连接概率都是相同的。SBM 优雅地简化并变成了 Erdős–Rényi 模型。形式上，我们可以说这两个模型之间的“信息距离”（通过一个称为 Kullback–Leibler 散度的概念来衡量）变为零。这表明 SBM 不仅仅是一个不同的模型；它是一个真正而强大的推广，一个在随机世界中加入了社群结构这一关键成分的模型。

隐藏的蓝图：推断与数学

到目前为止，我们有了一个构建带社群网络的配方。但在科学中，我们通常面临相反的问题：我们得到的是已完成的网络，而我们想揭示其隐藏的蓝图。我们看到了连接的网络，但我们不知道谁属于哪个社群。这就是推断的挑战。

作为一个概率模型，SBM 为我们提供了一种有原则的方法来解决这个问题。对于我们网络的任何一种假设的社群划分，SBM 提供了一个计算似然性的公式：即我们观察到的特定网络由该假设的社群结构生成的概率。因此，推断的任务就是在天文数字般庞大的可能社群分配中进行搜索，找到那个使我们观察到的网络看起来最可能的分配。虽然这种搜索在计算上非常困难，但这个似然函数的存在为我们提供了坚实的统计基础。

这个基础不仅仅是一个公式；它揭示了一个深邃的数学结构。让我们用邻接矩阵 $A$ 来表示我们的网络，其中如果节点 $i$ 和 $j$ 相连，则 $A_{ij}=1$ ，否则为 $0$ 。我们也可以用成员关系矩阵 $Z$ 来表示社群分配，用矩阵 $B$ 来表示块间连接概率。期望或平均邻接矩阵可以用惊人的简洁形式写出：

$\mathbb{E}[A] = Z B Z^\top$

这个优美的方程告诉我们，网络的平均结构是其社群蓝图的直接产物。这不仅仅是数学上的花哨玩意；它是解开许多强大算法的关键。它意味着社群的特征被编码在网络的大尺度统计特性中，这些特性可以通过线性代数技术（如谱聚类）来揭示。SBM 不仅描述了一个网络；它还为如何分析它提供了路线图。它甚至允许我们对更精细的细节做出预测，比如网络中三节点环，即三角形的期望数量。

当简单的配方失灵：流行度问题

尽管基本 SBM 非常优雅，但它有一个关键的弱点，一个在面对真实世界网络的复杂性时显现出来的阿喀琉斯之踵。SBM 建立在一个被称为可交换性的强假设之上。在给定的块内，该模型假设所有节点在统计上是相同的，或可互换的。如果你交换同一社群中任意两个节点的标签，网络的概率应该保持完全相同。

这样做的直接后果是，单个社群内的所有节点应该具有大致相同的连接数（相同的度）。SBM 没有个体“流行度”的概念。但这与真实网络的运作方式不符。在任何社交群体中，都有“枢纽”——高度连接的个体——和更多处于边缘的成员。

想象一下，试图用基本 SBM 来模拟一个同时包含名人和安静隐士的社群。模型会感到困惑。它能解释名人大量连接的唯一方式是假设他们属于一个内部连接概率极高的群体。为了做到这一点，推断算法通常会撕裂真实的社群，将名人放入他们自己的微小、超密集的“社群”中，而将隐士放入另一个稀疏的社群中。这些是虚假社群，是模型无法处理度异质性所产生的假象。简单的 SBM 将个体流行度误认为是集体结构。

一个更复杂的配方：度校正

为了解决这个问题，我们需要一个更复杂的配方，一个能够区分节点的内在社交性与其社群归属的配方。解决方案既巧妙又直观：度校正随机分块模型 (DCSBM)。

DCSBM 的核心思想是给每个节点 $i$ 一个它自己的个人“流行度”或“活跃度”参数，我们称之为 $\theta_i$ 。然后更新生成配方。现在，节点 $i$ 和 $j$ 之间形成一条边的概率取决于三件事：节点 $i$ 的流行度（ $\theta_i$ ），节点 $j$ 的流行度（ $\theta_j$ ），以及它们各自社群的友好程度（一个块亲和度参数 $\Omega_{z_i z_j}$ ）。边形成的概率与这三个因素的乘积成正比：

$P(A_{ij}=1) \propto \theta_i \theta_j \Omega_{z_i z_j}$

这个看似微小的改变带来了深远的影响。DCSBM 现在可以生成我们想要的任何度分布的网络，从最均匀的到最极度倾斜的，同时保持有意义的社群结构。一个节点的期望度现在与其个人 $\theta_i$ 参数成正比，正如我们所希望的那样。通过给每个节点自己的发言权，我们防止了那些喧闹的枢纽节点淹没它们所属社群的信号。当然，添加这些新参数需要一些仔细的数学处理，以确保模型定义良好且其参数唯一可识别，但为了换取真实性和能力的如此显著提升，这是很小的代价。

从 SBM 到其度校正版本的演进过程，微缩地展示了科学过程。我们从一个简单、优美的想法开始，用现实来检验它，发现它的局限性，然后将其改进成更强大的东西。SBM 框架不仅仅是一个静态的工具；它是一种描述复杂网络织锦的、活生生的、不断发展的语言。它为社群检测提供了一个有原则的、生成式基础，与纯粹描述性的质量分数（如模块度）形成对比。这个框架使我们能够提出并检验关于网络组织方式的精确假设，从而引导我们走向对互联世界隐藏架构真正深入、量化和统一的理解。而旅程并未就此结束；对层级式嵌套社群进行建模的扩展表明，SBM 的配方书还有许多章节有待书写。

应用与跨学科联系

要真正欣赏一个强大的科学思想，我们必须看到它的实际应用。随机分块模型 (SBM) 远不止是一个优雅的数学奇珍或一个用来绘制整洁网络图的工具。它是一个生成性视角，一本用于创造和理解复杂系统结构的“食谱”。通过将网络不视为一个静态、给定的对象，而是作为一个结构化随机过程的结果，SBM 为广阔的应用领域打开了大门，从破译我们基因的逻辑到理解人类社会的动力学。在本章中，我们将穿越这片领域，探索 SBM 如何让我们以新的方式发现、预测和推理世界。

发现隐藏结构：合理聚类的艺术

在最基本的层面上，SBM 是一台模式发现机器。其主要用途是揭示潜在的社群结构——那些支配网络如何连接的隐藏分组、簇或模块。例如，在系统生物学中，协同执行特定功能的基因形成“功能模块”。通过对基因-基因相互作用网络进行建模，SBM 可以将这些模块识别为社群，为细胞组织提供线索。

但在科学中，仅仅找到一个模式是不够的；我们必须证明这个模式是有意义的。我们如何知道 SBM 发现的社群是真实的，而不是偶然的假象？我们又如何知道，增加了复杂度的 SBM 比一个更简单的模型（如经典的 Erdős-Rényi 随机图，其中每个连接的可能性都相等）是更好的解释？在这里，SBM 作为一种严谨的假设检验工具而大放异彩。使用像贝叶斯信息准则 (BIC) 这样的统计框架，我们可以对不同模型进行量化的“比拼”。这使我们能够探究数据是否真正支持 SBM 所讲述的更复杂的故事，还是一个更简单的故事就足够了。这种模型选择的过程是现代统计科学的核心，而 SBM 为此提供了完美的舞台。

当然，现实往往比我们最初的模型更复杂。一个简单的 SBM 假设给定社群内的所有节点在统计上是可互换的。但这在现实世界中很少成立。许多网络，从社交网络到生物网络，都包含“枢纽”——比其同伴连接得多的节点。当一个标准的 SBM 面对这样的网络时，它会感到困惑。由于无法解释一个节点的内在流行度，它可能被迫创建虚假的“枢纽社群”，将来自不同功能组的高度假节点混为一谈，从而破坏发现过程。

这时，一个优美的改进应运而生：度校正随机分块模型 (DCSBM)。可以把它想象成给每个节点一个自己的“音量旋钮”或“社交性参数” $\theta_i$ 。这个参数使得模型能够区分节点的社群归属和其建立连接的内在倾向。这个简单的补充具有变革性意义，即使在面对极端的度异质性时，也能找到有意义的社群。无论我们是分析蛋白质-蛋白质相互作用网络还是重新审视我们的基因模块，DCSBM 都提供了一幅更真实的画面。并且，我们再次可以使用像赤池信息准则 (AIC) 这样有原则的统计工具，来精确地判断何时数据证明这种额外的模型复杂性是合理的。

生成引擎：预测未知与模拟未来

因为 SBM 是一个生成模型——一个构建网络的配方——我们不仅可以用它来分析现有数据，还可以用它来产生新的见解。它的力量从填补空白延伸到模拟另类现实。

其最强大的预测应用之一是链接预测。真实世界的网络数据集几乎总是残缺不全的。我们可能有一张已知的蛋白质相互作用图谱，但怀疑还有更多未被发现的相互作用。通过将 SBM 拟合到已知数据上，我们学习了社群之间潜在的“交战规则”。然后，我们可以使用这个拟合好的模型来计算任意两个节点之间应该存在缺失链接的概率。这并非凭空猜测；这是基于网络全局结构的原则性推断，对于从药物发现到在科学网络中识别潜在合作者等一切事物都具有深远的实际意义。

除了静态预测，SBM 还可以作为一个“世界”，在其中运行动态过程的模拟。网络的结构深刻影响着事物在其上传播的方式，无论是信息、病毒还是新技术。通过用 SBM 对网络结构进行建模，我们可以以一种可控的方式研究这些动力学。例如，我们可以模拟社交网络上的信息瀑布，并推导出级联期望规模的精确数学表达式。这使我们能够提出“如果……会怎样”的问题：改变一个社群内部的连接密度，或社群之间的联系强度，如何影响一条新闻病毒式传播的潜力？。SBM 成为连接静态网络结构与动态网络功能的桥梁。

更敏锐的眼光：一个好零模型的力量

也许 SBM 最复杂的用途之一不是寻找社群，而是对它们进行控制。在这个角色中，SBM 作为一个精心构建的基准——一个“零模型”——帮助我们发现更加微妙和令人惊讶的模式。

考虑一下寻找网络模体，它们是小的、重复出现的连接模式，可能代表系统的基本构建块。例如，“前馈环”是基因调控网络中的一个关键模式。人们可能会发现大量这样的环，并宣称它们是一个重要的设计原则。但这令人惊讶吗？如果一个网络天然是“成块的”，社群内部连接密集，我们就会期望仅凭偶然就能发现许多三角形模体。SBM 提供了一个具有社群意识的基准。它可以告诉我们，在给定观察到的社群结构的情况下，我们应该期望找到的模体数量。只有当观察到的数量显著超过这个基于 SBM 的期望值时，我们才能自信地宣称我们发现了一个非平凡的结构特征。SBM 让我们能够区分真正的设计和仅仅是社群结构带来的简单后果。

此外，SBM 的灵活性使其成为一个更优越的零模型。许多更简单的社群检测方法，比如那些基于模块度最大化的方法，都内在地偏向于寻找纯粹的“同配”结构，即节点主要与自己同类连接。但如果结构更复杂呢？在一个药物-靶标网络中，我们可能会发现一类药物（社群 A）并不以自身为靶标，而是系统地与一个特定的蛋白质家族（社群 B）相互作用。这是一种异配的、非对角的模式，更简单的方法会错过或误解。SBM 凭借其完整的组间亲和度矩阵，可以轻松捕捉这些丰富的、混合的模式。我们甚至可以使用像样本外链接预测这样的严谨方法来证明，SBM 对世界更细致的描绘不仅更复杂，而且确实更准确。

跨学科前沿与伦理视野

像所有真正基础性的思想一样，SBM 超越了其最初的领域。其结构化关系的数学语言为跨越惊人广泛的学科的探究提供了强大的框架。

想象一个贝叶斯侦探工作的场景。一位流行病学家观察到一种病毒在小规模人群中的传播，但底层的社交接触网络是未知的。有两个相互竞争的假设：该网络是一个随机混合器（一个 Erdős-Rényi 模型），或者它具有独特的社群结构（一个 SBM）。观察到的感染模式——谁感染了谁以及何时感染——是一份动态证据。我们可以使用贝叶斯定理来计算这个证据如何更新我们对每个假设的信念，从而得出网络具有社群结构的后验概率。在这里，我们不只是将模型拟合到网络上；我们正在利用网络上的动态过程来推断支配该网络的模型类别本身。

SBM 的影响甚至延伸到人类心智。一个医学心理学家团队可能试图理解对慢性病的恢复力。通过收集各种心理指标（乐观、应对策略、社会支持）的数据，他们可以构建一个患者-患者相似性网络，其中链接连接具有相似心理画像的个体。将 DCSBM 拟合到这个网络可以揭示潜在的“恢复力画像”——共享共同心理构成模式的患者亚组。发现这些抽象群体仅仅是开始。它们意义的真正检验来自于与外部数据的验证：在研究开始时了解患者的 SBM 识别的恢复力画像，是否有助于预测他们一年后的实际健康结果，例如住院次数？这展示了科学探究的完整弧线，从高维数据，到复杂的统计模型，再到经过验证的、具有现实世界临床影响潜力的预后性见解。

然而，这种建模、分类和预测的能力伴随着深远的责任。当我们使用 SBM 将一个节点分配到一个社群时，这个分配几乎从来都不是绝对确定的。作为一个概率模型，SBM 为我们提供了量化这种不确定性的工具，为每个节点的分类提供一个后验概率。我们可以使用贝叶斯法则从第一性原理计算这个概率。在任何这些标签可能产生现实世界后果的应用中——无论是在个性化医疗、信用评分还是司法系统中——透明地说明模型的置信度都是一项伦理要求。当潜在的后验概率仅为（比如说） $0.6$ 时，却报告硬性的、确定性的标签，是一种科学上的不诚实。负责任地应用这些强大模型要求我们传达我们的不确定性，对我们的假设保持透明，并考虑错误分类的潜在危害。随机分块模型不仅为我们提供了一个强大的透镜来观察我们世界隐藏的结构，也为我们导航所发现的知识提供了一个道德罗盘。