可折叠性：统计学与生理学中的一个概念，两种解读

玻尔百科

核心要点

非可折叠性是优势比等效应度量的一个数学属性，指总体（边际）效应并非亚组（条件）效应的简单平均值。
与混杂不同，非可折叠性并非一种统计偏倚，而是反映了群体平均效应与个体层面效应之间的真实差异。
在生理学中，可折叠性指的是气道和血管等柔顺管道的物理性变窄，这一原理解释了睡眠呼吸暂停和休克等状况。
统计学和生理学上的可折叠性都表明，为了一个全局平均值而忽略关键的局部条件（亚组风险或跨壁压）可能会产生误导。

引言

“可折叠性”一词在科学界具有两个截然不同但同等重要的含义。对于统计学家而言，它描述了效应度量中一个微妙的数学特性，该特性可能在数据分析中造成明显的悖论。对于医生而言，它指的是血管或气道非常真实的物理性塌陷。本文旨在揭开这两个概念的神秘面纱，解决统计学上的非可折叠性与混杂之间的常见混淆，并阐释人体内发挥作用的类似物理原理。通过探索这两个世界，读者将更深入地理解证据是如何被解释的，以及生理系统是如何运作的。第一部分“原理与机制”将剖析统计学非可折叠性背后的数学原理，并解释为何像优势比这类度量的行为会与直觉相悖。随后，“应用与跨学科联系”部分将把这一抽象概念与现实的医学世界联系起来，探讨生物管道的物理性塌陷如何决定从睡眠呼吸暂停到循环性休克的各种病症，最终揭示出一个关于局部背景重要性的共同启示。

原理与机制

想象你是一位试图测量某个自然界基本常数的物理学家。你会希望，无论你如何设置实验——无论是在温暖还是寒冷的房间，在海平面还是在山顶——在考虑了已知的环境影响后，你所测量的基本常数都保持不变。我们这些从事医学和公共卫生领域的人也有类似的抱负。当我们问“这种疫苗的效果如何？”或“这种行为的风险有多大？”时，我们正在寻找一种稳定、可靠的效应度量。但在这里，我们遇到了一个有趣的数学难题，它可能导致明显的悖论。理解这一难题的旅程将我们带向了在一个复杂、异质的世界中测量效应的意义核心。这就是可折叠性的故事。

分层世界：我们为何要分层

假设我们正在一个大型果园里测试一种新肥料。这个果园里混合种植着两种苹果树：'Granny Smith'和'Red Delicious'。我们想知道肥料对苹果产量的影响。这似乎很简单：比较施肥树木与未施肥树木的产量。

但如果这种肥料对Granny Smith效果极佳，而对Red Delicious效果平平呢？又或者，由于偶然或设计，我们施肥的组里有更多的Granny Smith呢？一个简单的总体比较可能会产生误导。为了得到更清晰的画面，我们需要更加小心。我们应该分别考察每个组内的效果：首先，比较施肥与未施肥的Granny Smith；其次，比较施肥与未施肥的Red Delicious。这个将我们的数据分割成更均质子组的过程称为分层。我们用来分割的变量——在这个例子中是“苹果品种”——就是我们的分层变量，或协变量。

现在到了关键问题：一旦我们得到了每个分层（每种苹果）内的效应，我们如何将它们结合起来讨论果园的总体效应？我们能简单地……求平均值吗？令人惊讶的是，答案是“这取决于你如何测量‘效应’”。

线性英雄：一种表现良好的度量

一种直接的效应测量方法是计算风险差（Risk Difference, RD）。它回答了这样一个问题：“如果服用该药物，每100人中会有多少更多的人康复？”这是一个简单的减法。

让我们来看一个假设的医学研究，类似于中描述的研究。一种新药与安慰剂进行对照测试，人群根据基线合并症分为两组，我们称之为低风险组（ $C=0$ ）和高风险组（ $C=1$ ）。

在低风险组（ $C=0$ ）中，使用安慰剂出现不良结局的风险为 $0.02$ ，使用药物为 $0.10$ 。这里药物似乎增加了风险。让我们为了一个有益效果重新设想一下情景。假设未康复的风险，安慰剂组为 $0.10$ ，药物组为 $0.02$ 。风险差为 $0.02 - 0.10 = -0.08$ 。药物使未康复的风险降低了8个百分点。
在高风险组（ $C=1$ ）中，假设未康复的风险，安慰剂组为 $0.25$ ，药物组为 $0.13$ 。风险差为 $0.13 - 0.25 = -0.12$ 。药物使风险降低了12个百分点。

这种药物在两个分层中都有效，但在高风险组中效果更好。那么总体效果是什么？如果人群中60%是低风险，40%是高风险，我们的直觉告诉我们应该计算一个加权平均值： $\text{Overall RD} = (0.60 \times -0.08) + (0.40 \times -0.12) = -0.048 - 0.048 = -0.096$ 如果我们通过汇集所有数据来计算总体（或边际）风险，我们会发现它确实是 $-0.096$ 。数学计算完美吻合。边际效应是条件（分层特异性）效应的简单加权平均。这个优美、直观的属性被称为可折叠性。风险差是一个可折叠的度量。它的表现正如我们的直觉所预期的那样。风险比（Risk Ratio, RR）也是如此，它衡量风险的相对变化，前提是没有混杂。

弯曲平均值的悖论

现在，让我们转向一个不同且可能更著名的效应度量：优势比（Odds Ratio, OR）。一个事件的优势（odds）是它发生的概率除以它不发生的概率。例如，如果一个事件的风险是 $0.25$ （或四分之一），那么优势是 $\frac{0.25}{1-0.25} = \frac{0.25}{0.75} = \frac{1}{3}$ 。优势比就是治疗组的优势与对照组优势的比值。

OR具有绝佳的数学特性，使其成为逻辑回归（现代统计学的主力工具）中的自然参数。但它有一个古怪的个性。

让我们想象一个新的情景，这个情景是为了揭示这种古怪特性而构建的，如所示。一项治疗在两个分层 $z_1$ 和 $z_2$ 中进行测试。我们仔细测量效应，发现在两个分层中，治疗的效果完全相同：它使康复的优势增加了两倍，即变为原来的三倍。也就是说，在分层 $z_1$ 中条件OR是 $3.0$ ，在分层 $z_2$ 中条件OR也是 $3.0$ 。

你猜合并后总人群的总体、边际OR是多少？肯定是 $3.0$ ，对吧？

让我们来算一下。根据问题中给出的具体风险，我们通过在各分层间取平均来计算治疗组和非治疗组人群的边际风险。然后我们计算边际OR。结果不是 $3.0$ 。它大约是 $2.33$ ！。

这令人困惑。治疗效果在每一个亚组中都是 $3.0$ ，但当我们审视整个人群时，效果似乎变小了。这种现象被称为非可折叠性。优势比是一个非可折叠的度量。它违背了我们关于平均的简单直觉。

平均值为何弯曲：非线性的秘密

这是某种统计学的黑魔法吗？完全不是。它是一个基本数学原理的直接结果。风险（ $p$ ）和优势（ $p/(1-p)$ ）之间的关系是非线性的。

想一个更简单的非线性函数：求一个数的平方。我们取数字1和9的平均值，平均值是5。平均值的平方是 $5^2 = 25$ 。现在我们先对数字求平方，然后取平均值： $1^2 = 1$ 和 $9^2 = 81$ 。1和81的平均值是41。注意 $25 \neq 41$ 。平均值的平方不等于平方的平均值。

优势函数正是这样。平均风险的优势不等于优势的平均值。 $\frac{\text{avg}(p)}{1 - \text{avg}(p)} \neq \text{avg}\left(\frac{p}{1-p}\right)$ 当我们计算边际OR时，我们实际上是在做方程的左边（先平均风险）。当我们思考分层特异性OR的“平均值”时，我们是在想方程的右边。因为函数是非线性的，这两条路径会得出不同的答案。风险差是一个简单的减法，是线性运算，所以它不会受此“悖论”的影响。

身份误认：非可折叠性不是混杂

这是最关键的概念飞跃。在统计学入门课上，你可能学到，如果一个“粗略”估计（如我们的边际OR 2.33）不同于一个“校正”估计（我们的条件OR 3.0），那么这种差异是由于混杂。混杂因素是同时与暴露和结局相关的因素，它会搅浑水。

但在我们讨论的所有情景中，我们都小心翼翼地设定了没有混杂。例如，暴露是随机化的，意味着它是独立于分层变量分配的（，）。我们看到的差异不是一个需要“校正”的偏倚。

边际OR和条件OR是两个不同但数学上都有效的量。它们回答的是不同的问题。

条件OR（3.0）回答：“对于一个特定类型的个体（例如，一个Granny Smith苹果），治疗在多大程度上改变了他们结局的优势？”这通常被解释为生物学或机制上的效应。
边际OR（2.33）回答：“如果我们治疗一个从整个人群中随机抽取的人，他们结局的优势平均会改变多少？”这是一个群体平均效应。

对于OR来说，它们不相等并非一个缺陷；这是一个基本属性。将非可折叠性与混杂相混淆是在解释统计结果时一个常见且严重的错误。

悖论何时消退：可折叠性的条件

那么，OR是否总是注定会有这种悖论行为？不完全是。驱动这种现象的非线性有其局限性。在特定条件下，OR会变得可折叠——或非常接近可折叠。

两个严格的条件是无关紧要的：要么效应为空（所有分层的OR=1），要么分层变量根本不是一个风险因素（那样的话，为什么还要分层呢？）。

最重要的实际条件是罕见结局假设。当一个结局非常罕见时，其概率 $p$ 是一个非常小的数。在这种情况下， $1-p$ 非常接近1，而优势 $p/(1-p)$ 约等于风险 $p$ 。

这意味着什么？这意味着优势比（优势的比值）成为风险比（风险的比值）的一个非常好的近似。而正如我们前面所见，风险比是可折叠的！

因此，对于罕见疾病，OR的非可折叠性要轻微得多。我们可以用具体的数字看到这一点。在一个结局常见的假设情景中，一个条件OR为2.0会缩小到边际OR为1.90。但在一个结局罕见的类似情景中，条件OR为2.0仅缩小到边际OR约1.99。这个悖论几乎消失了，尽管它从未完全消失。

深入探讨：时间维度上的非可折叠性

这个原理超出了简单的优势。考虑生存分析，我们测量治疗对事件发生前时间（如死亡）的影响。这里一个常用的度量是风险率比（Hazard Ratio, HR）。HR为0.5意味着治疗在任何给定时刻都将事件的瞬时风险减半。

风险率比也是非可折叠的，原因非常直观。想象我们的人群再次由两组混合而成：“体弱”组和“强健”组。治疗对两组都有相同的相对益处，都将其死亡风险率减半。

随着时间的推移，在合并的人群中会发生什么？体弱的个体，由于其内在风险率更高，将倾向于更早发生事件并从“风险集”中被移除。这被称为易感者耗竭。

其后果是，随着时间的推移，幸存者中强健个体的比例稳步增加。人群的总体边际风险率是体弱组和强健组风险率的加权平均。但由于幸存人群的构成在变化，所以权重也在随时间变化！这意味着边际风险率比也会随时间变化，并且不会等于恒定的条件HR。

理解非可折叠性并不意味着我们应该抛弃像优势比或风险率比这样的度量。它们是强大的工具。这意味着我们必须在解释时更加严谨，认识到“效应是什么？”这个问题可能有不止一个有效答案，这取决于我们是在问一个群体内的个体还是整个人群。它提醒我们，在生物学和医学这个美妙复杂的世界里，求平均值并不总是看起来那么简单。

应用与跨学科联系

科学领域中会发生一件奇特而有趣的事情：有时同一个词会在两个完全不同的领域中安家落户，描述两种看似无关的现象。“可折叠性”就是这样一个词。在统计学家的世界里，它指的是平均数和比率的一个微妙的数学特性，一种可能误导粗心者的数字戏法。而在医生或生理学家的世界里，它有一个更为直观的含义：生物管道（如气管或血管）的物理性塌陷。

乍一看，这两个概念似乎毫无共同之处。一个是数据分析中的抽象概念，另一个是具体的机械事件。然而，当我们追溯它们的内涵时，会发现一条优美而统一的线索。两种“可折叠性”都讲述了一个关于忽略关键信息所带来的潜在危险的故事——无论这个信息是数据集中的混杂变量，还是静脉外的压力。让我们踏上穿越这两个世界的旅程，看看它们能教会我们关于自然界复杂运作和证据解读的哪些道理。

统计学家的可折叠性：一个关于隐藏影响的故事

想象你是一名医学研究员，正在比较一种新药和安慰剂。你想知道这种药物是否能降低不良结局的优势。一个自然的测量方法是优势比（odds ratio, OR）。OR为1意味着药物无效，而小于1的OR则表明它具有保护作用。

现在，假设你的研究包括两种类型的患者：有既存状况（比如糖尿病）的和没有的。你分析数据后，发现了惊人的结果。对于糖尿病患者，优势比是干净利落的 $0.5$ 。对于非糖尿病患者，优势比也是 $0.5$ 。看起来，无论是否患有糖尿病，这种药物都能将优势减半！这是一个非常一致的结果。但接着，你做了一件看似理所当然的事：你把所有患者都放进一个大池子里，计算整个研究人群的总优势比。令你惊讶的是，这个数字不再是 $0.5$ 。它可能是 $0.52$ ，或者 $0.48$ ，但它并不恰好是 $0.5$ 。

哪里出错了？什么都没错！这不是一个错误或悖论；这是优势比的内在特性。它是非可折叠的。“可折叠性”是一个正式术语，用来描述为一个总体计算的关联度量（边际或“折叠后”的度量）是否保证是不同亚组内计算的度量（条件度量）的简单加权平均。对于优势比，答案是否定的。即使在一个完美的随机试验中，药物组和安慰剂组的糖尿病患者比例完全相同，这个数学上的怪癖依然存在。

原因是优势比是一个非线性函数。它涉及概率的除法和比率。当你先平均风险然后计算优势比时，你得到的答案与你先计算亚组的优势比然后尝试平均它们是不同的。这对医学研究，尤其是在荟萃分析中，有着深远的影响，科学家们在荟萃分析中会合并来自许多不同研究的结果。如果一项研究报告了“未校正的”（边际）优势比，而另一项报告了考虑了患者风险因素的“校正的”（条件）优势比，它们是不能直接比较的。它们之间的差异可能并非源于研究的真实差异，而仅仅是由于非可折叠性这一数学特性。

同样奇怪的行为也适用于医学统计学的另一个主力工具：来自Cox比例风险模型的风险率比（hazard ratio），它常用于研究如患者生存时间之类的事件时间结局。针对患者的放射组学评分或其他预后因素进行校正后，治疗的风险率比具有清晰的条件性解释。但这与对生存概率的总体边际效应是不同的，因为随着时间的推移，“风险集”中患者群体的构成会发生变化，从而微妙地改变了我们测量效应的背景。

相比之下，一些度量则表现得非常“良好”。例如，风险差，它就是一组的风险减去另一组的风险。因为减法是线性运算，所以风险差是可折叠的。总体的边际风险差总是个亚组内风险差的简单加权平均。如果一种药物使糖尿病患者发生事件的绝对风险降低 $5\%$ ，在非糖尿病患者中也降低 $5\%$ ，那么（在随机研究中）总体风险降低也将恰好是 $5\%$ 。这一特性使得风险差在公共卫生应用中更为直观，尽管优势比在统计建模中通常具有更方便的数学特性。这种区别不仅仅是学术上的；它塑造了我们如何解读证据，并做出影响数百万人生命的决策。

医生的可折叠性：一个关于瀑布和阻塞点的故事

现在，让我们离开抽象的统计学领域，进入人体的物理世界。在这里，“可折叠性”指的是柔软、有弹性的管道在外部压力超过内部压力时变窄或闭合的倾向。想象一根柔软、易扁的花园软管。如果你只把水龙头开一点点，软管仍然是瘪的。水流的大小由水龙头到开口端的压力差决定。但如果你轻轻踩在软管的远端会怎样？软管会变扁，形成一个“阻塞点”。现在，奇妙的事情发生了：水流的大小不再由软管最末端的压力决定，而是由水龙头和你的脚之间的压力差决定。你可以将脚完全抬离地面或更用力地踩下，但只要软管保持部分塌陷，流速就不会改变。它已经变得与下游压力无关。

生理学家称之为“血管瀑布”或斯塔林电阻（Starling resistor）现象。关键的量是跨壁压（transmural pressure）， $P_{tm}$ ，它就是管道内压力（ $P_{in}$ ）减去管道外压力（ $P_{out}$ ）。当 $P_{tm}$ 为大的正值时，管道扩张开放。当 $P_{in}$ 下降， $P_{tm}$ 接近零或变为负值时，管道就会塌陷。这个简单的物理原理支配着一系列惊人的生理功能和疾病。

阻塞性睡眠呼吸暂停：气道中的恶性循环

物理性塌陷最直观的例子也许是阻塞性睡眠呼吸暂停（Obstructive Sleep Apnea, OSA）。人体的上呼吸道，特别是舌后和软腭后的咽部，没有坚硬的软骨支撑。它本质上是一根可塌陷的管道。在睡眠期间，通常保持其开放的肌肉会放松。当你吸气时，你的膈肌产生负压将空气吸入肺部。这个负压会向上传导至气道，降低了 $P_{in}$ 。而周围颈部组织中的压力 $P_{out}$ 则保持相对正值。因此，每一次吸气都会对咽部产生一种塌陷力。在OSA患者中，这个力足以将气道吸闭。

这种塌陷的物理学原理尤其严苛。管道中的气流阻力由哈根-泊肃叶方程（Hagen-Poiseuille equation）描述，该方程告诉我们，阻力对管道半径 $r$ 极为敏感。具体来说，阻力与 $1/r^4$ 成正比。这意味着如果气道半径减半，呼吸阻力不是增加两倍或四倍，而是增加十六倍！这会产生一个恶性的正反馈循环：一点点的变窄会急剧增加阻力，迫使吸气努力更强，从而产生更负的 $P_{in}$ ，导致进一步的塌陷。

幸运的是，理解这一物理原理也为我们提供了解决方案。持续气道正压通气（Continuous Positive Airway Pressure, CPAP）疗法通过充当“气动夹板”来起作用。CPAP机器以一个略微升高的压力输送空气。这提高了整个气道的基线 $P_{in}$ ，确保即使在吸气的负压摆动期间，跨壁压 $P_{tm}$ 也保持正值，从而支撑气道开放，防止塌陷的恶性循环。

休克与下腔静脉：循环系统的一扇窗口

可折叠性原理为医生在床边提供了一个强大的诊断工具。当病人遭受休克——一种血流不足的危及生命的状态时，一个关键问题是：原因是什么？是“油箱”空了（低血容量性休克，如失血），还是“泵”坏了（心源性休克，如心脏病发作）？

快速超声检查下腔静脉（inferior vena cava, IVC）——这条将血液送回心脏的大静脉——可以提供答案。IVC是一根穿过腹部的薄壁、可塌陷的血管。其内部压力是心脏充盈压（前负荷）的良好代表。如果病人处于低血容量性休克状态，他们的血容量低，因此IVC充盈不足，其 $P_{in}$ 很低。随着每一次呼吸，胸腔内压力的变化会使这条松软的静脉明显塌陷。在超声上看到一个细小、高度可塌陷的IVC是病人需要补液的强烈信号。相反，如果心脏作为泵衰竭，血液会在静脉系统中淤积。IVC会变得充血，就像一座破损大坝后的河流。它的 $P_{in}$ 很高，所以它看起来很大，并且在呼吸时几乎不塌陷。这种“多血性”的IVC是心源性休克的危险信号，警告医生给予更多液体可能是有害的。

超越流动：一个统一的原则

斯塔林电阻模型如此强大，以至于它出现在生理学和医学的许多其他角落。

在大脑中，从颅骨引流血液的静脉必须穿过有压力的颅内空间。在一种称为特发性颅内高压（Idiopathic Intracranial Hypertension, IIH）的疾病中，颅内压（ $P_{ICP}$ ）异常高。这种高的外部压力可以挤压引流静脉，导致它们部分塌陷。这种塌陷增加了静脉流出的阻力，进而导致血液淤积，进一步增加压力——这是另一个由与睡眠呼吸暂停相同的物理学原理驱动的恶性正反馈循环。
在我们最小的血管中，血流不仅受被动物理学调节，还受到血管壁平滑肌主动收缩的调节。这种主动张力增加了塌陷力，产生了一个高于周围组织压力的“临界关闭压”。即使动脉压高于静脉压，如果局部压力降至此临界阈值以下，血管床中的血流也可能停止。这展示了生物学主动调节物理参数以控制血流的美妙相互作用。

两个概念的故事

我们已经看到了可折叠性的两副面孔。一个是数学上的细微差别，警告统计学家整体并非总是其各部分的简单平均。它提醒我们在比较结果时要批判性思考，要询问校正了什么，并要理解我们所选度量的内在属性。另一个是切实的物理原理，支配着柔顺管道中的流动。它解释了为什么当我们的气道关闭时我们无法呼吸，医生如何诊断休克，以及压力如何在我们的颅骨内积聚。

共同的线索是什么？在这两种情况下，“塌陷”都发生在我们忽视了一个关键的局部条件时。统计学家的边际优势比“塌陷”远离了条件性真相，因为它平均并忽略了亚组中不同的基线风险。生理学家的管道塌陷是因为从起点到终点的全局压力梯度忽略了关键的局部条件：阻塞点处的跨壁压。这两个故事都有力地证明了一个基本的科学思想：要真正理解一个系统，我们不仅要看全局，还必须关注那些支配其行为的关键细节和隐藏变量。