估量：科学探究的基石

玻尔百科

定义

估量：科学探究的基石是指一项研究旨在测量的真实数量的精确且明确的定义，它是建立可靠科学调查的基础。该框架要求明确目标人群、干预措施、结果、汇总指标以及处理伴随事件的策略，从而将相关性与真正的因果关系区分开来。通过在测量方法或结果之外独立定义测量目标，估量使得研究人员能够针对具体的预设目标评估潜在的偏差。

核心要点

估量（estimand）是一项研究旨在测量的真实数量的精确、无歧义的定义，它区别于估计量（estimator，即方法）和估计值（estimate，即具体结果）。
定义一个估量需要明确目标人群、干预措施、结局、汇总指标以及处理伴随事件（现实世界中的干扰因素）的策略。
估量框架对于区分纯粹的关联和真正的因果关系至关重要，它迫使研究人员明确他们是在观察一种关系，还是在衡量一项干预措施的影响。
一项研究的潜在偏倚只能相对于一个特定的、预先定义的估量进行评估，这使得估量的定义成为任何可信科学研究的基础步骤。

引言

在任何科学探索中，我们都始于一个问题。一种新药能降低血压吗？某个特定基因会影响一种疾病吗？一种教学方法能提高考试成绩吗？这些问题是发现的火花，但它们还不是研究的蓝图。从一个模糊的问题到可验证的答案，其间的道路充满了模糊性，如果我们不能精确定义我们正在测量什么，就可能使整个研究变得毫无意义。核心问题在于如何将一个宽泛的科学问题转化为一个具体的、可量化的目标。

本文通过引入估量（estimand）的概念来应对这一根本性挑战。估量是我们试图了解的数量的精确、无歧义的定义。它是指引我们研究的藏宝图，确保我们的方法和结果都对准了正确的目标。通过理解并仔细构建估量，研究人员可以跨越关联与因果之间的鸿沟，应对现实世界数据的复杂性，并确保其结论的完整性。

本文将首先深入探讨估量的“原理与机制”，定义其与估计量和估计值的关系，并概述构建一个稳健估量所需的关键组成部分。随后，“应用与跨学科联系”部分将探讨这个强大的概念如何应用于从临床试验、流行病学到生物信息学等不同领域，为科学发现带来清晰度和严谨性。

原理与机制

想象一下，你是一位帆船时代的船长。你听到一个传闻，说一座遥远的岛屿上埋藏着传说中的宝藏。这个传闻令人兴奋，但它不是一个计划。要找到宝藏，你需要一张地图。而且不是任何地图，而是一张精确的地图。它必须告诉你宝藏埋藏的确切位置。是“在那棵高大的棕榈树旁”？还是“在骷髅湾最北端的岩石以北十步，深埋五英尺”？前者是一个模糊的想法；后者是一个精确的目标。

在科学领域，我们都是寻宝者。我们的“宝藏”是关于世界如何运作的知识。像“这种新药能降低血压吗？”这样的研究问题，就是我们听到的宝藏传闻。这是一个极好的起点，但它不是一张地图。为了将这个问题转化为一次科学远征，我们必须做到极致的精确。我们需要定义我们的目标。在统计学的语言中，这个目标——这个我们想知道的数量的精确、无歧义的定义——被称为估量（estimand）。

推断的三位一体：估量、估计量与估计值

在继续之前，让我们先理清词汇。这三个术语听起来很相似，但它们代表了三个截然不同的概念，是统计推断的基本三位一体。让我们继续使用藏宝图的比喻。

估量（Estimand）是宝藏本身。它是我们正在寻找的那个单一、真实但未知的数值。它是宇宙的一个特征，是总体的“参数”。例如，所有可能服用我们新药的患者，其血压降低的真实平均值。它是一个存在于现实中的固定数字，等待被发现。
估计量（Estimator）是寻找宝藏的指令集。它是一个食谱、一个公式、一个你应用于数据的程序。要估计平均血压降低值，一个很自然的估计量是样本均值：将你在研究参与者中测得的所有血压变化值相加，然后除以参与者人数。请注意，估计量是一个通用规则，而不是一个具体的数字。在你收集数据之前，估计量是一个随机变量——它的值取决于你碰巧为研究选择的特定随机样本。
估计值（Estimate）是你将估计量应用于实际收集到的数据后得到的具体数值。它是你最终挖掘的地面上的那个点。研究结束后，你计算样本均值，发现血压平均下降了，比如说， $10.5$ mmHg。那个数字， $10.5$ mmHg，就是你的估计值。它是你对真实、隐藏的宝藏——即估量——所在位置的最佳猜测。

在这三者中，估量为王。为什么？因为如果你没有精确地定义你在寻找什么，你的方法（估计量）和你的结果（估计值）就毫无意义。一个解答了错误问题的精彩计算比无用更糟糕；它具有误导性。

科学家作为建筑师：构建估量

让我们回到我们的临床试验。一个研究团队想知道，在预防心房颤动患者中风方面，一种新的抗凝剂是否优于旧的标准药物华法林。这是一个生死攸关的问题。做对至关重要。那么，我们如何构建一个精确的估量呢？我们必须成为建筑师，仔细指定我们目标的每一个组成部分。

首先，我们定义人群（population）：我们谈论的是谁？所有成年人？还是特指患有非瓣膜性心房颤动的成年人？答案定义了我们藏宝图的范围。

其次，干预和对照（intervention and comparator）：我们到底在比较什么？是分配新药的策略与分配华法林的策略。

第三，结局变量（outcome variable）：我们测量什么来判断成功？是发生任何中风，还是仅限缺血性中风？在多长时间内？假设它是一年内首次发生缺血性中风的时间。这是我们的“终点”。

第四，汇总指标（summary measure）：我们如何比较两组？我们关心的是发生中风的人群比例之差（风险差）？还是比例之比（风险比）？对于时间-事件数据，一个常见的选择是风险比（hazard ratio），它比较在任何时间点发生中风的瞬时风险。

现在来看最后一个，也是最微妙的组成部分——它真正将估量从一个统计概念提升为一个哲学概念。

第五，我们如何处理伴随事件（intercurrent events）？“伴随”是一个花哨的词，用来形容在真实研究中发生的所有棘手事情。患者可能会停止服用他们被分配的药物。他们可能会出现不良反应，不得不更换治疗方法。有些人甚至可能在病情恶化时需要“挽救性药物治疗”。我们是忽略这些人吗？还是假装他们完美地遵循了指示？对这个问题的回答不仅是调整分析方法；它从根本上改变了我们正在询问的科学问题。

这一认识是现代“估量框架”的核心。没有单一“正确”的方式来处理这些事件。相反，我们必须选择一个与我们想要回答的问题相符的策略。例如：

治疗策略（Treatment-Policy Strategy）：我们可以决定根据每个人最初被分配到的组别来分析他们，无论他们实际上做了什么。这衡量的是在现实世界中（包括各种混乱情况）开出该药物的策略的有效性。这通常被称为“意向性治疗”（Intention-to-Treat, ITT）分析，对于决定是否批准和资助一种新疗法的监管机构和卫生系统来说，它非常有价值。它回答的问题是：“将这种治疗方法提供给我们的人群会产生什么效果？”
假设策略（Hypothetical Strategy）：我们可以问一个不同的问题：“在一个没有人停止服药、也没有人需要挽救性治疗的假设世界里，这种药物的效果会是怎样？”这旨在分离出药物纯粹的生物学机制。这个问题对于寻求理解药物如何起作用的科学家至关重要，但对于预测病人在现实世界中结局的医生来说，其相关性较小。

通过明确我们处理这些事件的策略，我们完成了估量的架构。我们那个模糊的问题，“这种药有效吗？”，已经转变为一个精确、可量化的目标：在非瓣膜性心房颤动成年人中，比较起始使用新药与起始使用华法林的策略，在一年内首次发生缺血性中风时间的风险比。现在，也只有现在，我们才拥有了一张真正的藏宝图。

所见与所为：关联与因果之间的鸿沟

也许估量最深刻的作用是迫使我们直面所见与所为之间的鸿沟——即关联与因果之间的鸿沟。让我们构建一个“直觉机器”来理解这一点。

想象一位神经科学家正在研究经颅磁刺激（TMS）的强度（我们称之为 $X$ ）如何影响由脑电图（EEG）信号测量的脑反应（ $Y$ ）。在他们的实验中，操作员为每个受试者选择TMS强度。一件奇怪的事情发生了：操作员倾向于为那些看起来更“兴奋”或反应更灵敏的参与者调高强度。我们将这种隐藏的大脑状态称为 $Z$ 。关键是，这种潜在的兴奋状态 $Z$ 本身也会自然地增强EEG信号 $Y$ 。这就产生了一个因果图，看起来是这样的：大脑状态 $Z$ 同时影响TMS强度 $X$ 和EEG信号 $Y$ ，而 $X$ 对 $Y$ 也有其自身的直接影响。

现在，我们试图回答什么问题？

一种可能的估量是关联性量（associational quantity）， $E[Y|X=x]$ 。它问的是：“在我们观察到TMS强度为值 $x$ 的所有情况中，平均EEG信号 $Y$ 是多少？”这是一个关于所见的问题。当我们从数据中计算这个量时，我们发现了一个很强的关系。但这个关系是一个海市蜃楼。它是 $X$ 对 $Y$ 的真实效果与 $Z$ 的混杂效应的混合体。当我们看到一个高的 $X$ 时，我们也在不自觉地选择了 $Z$ 也很高的情况，而这本身就推高了 $Y$ 。

更重要的科学问题需要一个因果估量（causal estimand）， $E[Y|\text{do}(X=x)]$ 。它问的是：“如果我们能介入系统并强制将TMS强度设为值 $x$ ，平均EEG信号 $Y$ 会是多少？”这是一个关于所为的问题。“ $do$ ”算子就像一把神奇的剪刀：它剪断了从混杂因素 $Z$ 指向 $X$ 的箭头，打破了混杂路径。剩下的是 $X$ 对 $Y$ 的纯粹、无混杂的影响。

在我们的例子中，观察到的关联（ $E[Y|X=x]$ ）可能是“3个单位”，而真实的因果效应（ $E[Y|\text{do}(X=x)]$ ）只有“2个单位”。那多出来的“1个单位”是混杂的幻肢。

这不仅仅是一个统计学上的花招；它是科学探究的核心。随机对照试验是我们现实世界中近似神奇“ $do$ ”算子的最佳工具。通过随机分配治疗（ $A=1$ 或 $A=0$ ），我们打破了任何潜在混杂因素——无论已知还是未知——与治疗选择之间的联系。这使我们能够估计一个因果估量，比如 $\mathbb{E}[Y(1)] - \mathbb{E}[Y(0)]$ ，即如果人群中的每个人都接受治疗与每个人都接受对照相比，平均结局的差异。

估量为王

我们得出了一个最终的、有力的结论。我们经常听到的研究中的“偏倚”概念，在没有首先定义估量的情况下是毫无意义的。一项研究不是在抽象意义上存在偏倚；一个估计值是针对特定估量存在偏倚。

想象一项关于吸烟与肺部疾病的研究，为了提高效率，该研究招募了所有能找到的患病者（病例），但只招募了小部分健康人（对照）。这种设计似乎 inherently biased；样本完全不代表总人群。但真的是这样吗？

如果我们的估量是风险比（risk ratio）——即整个人群中吸烟者的风险除以非吸烟者的风险——那么，是的，从这个样本中进行的简单计算将会有极大的偏倚。这个样本不是那个总体。

但如果我们的估量是比值比（odds ratio）呢？由于一个优美的数学特性，从这个病例-对照样本中计算出的比值比通常是完整人群中比值比的一个良好估计。对于那个特定的估量，这个“有偏”的抽样设计突然间就神奇地变得无偏了！

这教给了我们最重要的一课。估量的选择不是一个技术性的事后思考。它是任何科学研究的第一步，也是最关键的一步。它是我们向宇宙提出的精确问题的清晰表述。它决定了研究设计、分析计划以及成功的定义本身。在我们找到宝藏之前，我们必须首先以毫不动摇的清晰度决定，我们到底在寻找什么宝藏。我们必须画出那张地图。

应用与跨学科联系

在理解了估量是什么的原理之后，我们可能会想把它归档为统计学术语，一个专家的行话。但这就像学习了万有引力定律却从不仰望星空一样。一个基本概念的真正美妙之处不在于其定义，而在于其照亮世界的力量。估量不仅仅是一个统计学上的奇珍；它是一个镜头，为横跨众多科学领域的探究带来清晰度。它是在所有有意义的发现之前那个简单而执着的问题——“我们到底在测量什么？”

让我们从一个我们都熟悉的领域开始我们的旅程：生长。想象一位生物工程师开发了一种新的生菜营养液。他们想知道它是否“有效”。一个模糊的问题！它让生菜更绿吗？更美味？更大？为了取得进展，我们必须精确。研究人员决定他们真正关心的问题是这种溶液是否能增加生物量。于是，他们测量了每个生菜在处理前后的重量。科学问题锐化为一个统计问题：生物量的平均变化是多少？这个量，我们或许可以写成 $\mu_D = \mu_{\text{final}} - \mu_{\text{initial}}$ ，就是估量。它是世界上那个固定的、真实的——但未知的——我们用科学仪器瞄准的数值。它是我们导航数据的北极星。它的存在独立于我们的实验、样本量或我们的方法。它就是目标。

估量在临床中的应用：从人群到患者

没有哪个领域比医学更需要这种精确性。当我们比较两种治疗方法时，赌注是人的生命。考虑一项比较两种降低胆固醇饮食的试验。这里的估量自然被定义为，在饮食A的整个患者人群和饮食B的整个患者人群之间，平均低密度脂蛋白胆固醇水平的差异，这个量我们可以标记为 $\Delta = \mu_A - \mu_B$ 。注意这迫使我们做出的一个微妙而深刻的区分：我们的估量 $\Delta$ 是人群的一个属性，一个我们希望知道的普适常数。而我们从有限的研究中计算出的值，比如 $\bar{x}_A - \bar{x}_B$ ，是估计值。它是我们对目标的最佳一击，一个如果我们用新的一组人重做研究肯定会略有不同的值。估量框架灌输了一种谦逊，即懂得我们所寻求的真理和我们所持有的证据之间的区别。

当然，现实世界的医学是混乱的。人与人是不同的。在一个群体中的效果可能与另一个群体中的不同。这就是混杂问题。想象我们正在研究一种暴露与一种疾病之间的联系，但我们意识到年龄与这种关系混杂在一起。我们可以对研究进行分层，为不同年龄组创建单独的 $2 \times 2$ 列联表。但现在我们的目标是什么？如果我们的研究是病例-对照设计——即我们根据人们是否患有该疾病来招募他们——一件奇怪的事情发生了。研究设计本身限制了我们能有意义地测量的东西。我们可能想知道风险差异，但我们数据收集的性质使之成为不可能。相反，在各分层中保持稳定和可解释性的可估量是共同条件比值比（common conditional odds ratio）。这是一个美丽， وإن كان sobering 的教训：我们能回答的具体问题，是我们科学好奇心与我们测量工具实际限制之间协商的结果。我们必须选择一个我们实际上能达到的估量。

因果前沿：追问“假如？”

到目前为止，我们的估量都是关于描述和比较人群现有属性的。但科学在其最雄心勃勃的层面，不仅想知道“是什么”，还想知道“假如会怎样？”一项干预的因果效应是什么？这需要跃入一个有纪律的想象世界，一个潜在结局的世界。

在一项试图确定他汀类药物是否能预防心脏病的流行病学研究中，我们可以定义一个近乎神奇的估量：如果人群中每个人都服用了他汀类药物，其结局与在平行宇宙中同一人群没有服用他汀类药物的结局之间的平均差异。我们将其写为 $E[Y^{a=1} - Y^{a=0}]$ ，其中 $Y^a$ 是在处理 $a$ 下的潜在结局。这个估量是我们的目标，而像逆概率加权这样的复杂方法就成为我们为击中目标而构建的工具——即估计量——利用我们能观察到的一个世界来推断我们无法观察到的那个世界。

这个框架不仅仅是一个学术练习。它现在是现代临床试验如何设计和解释的核心。考虑一项新的偏头痛药物的试验。如果新药起效不够快，一些患者可能会觉得需要服用“挽救性药物”。这是一个“伴随事件”——一个使“这种药有效吗？”这个简单问题复杂化的事件。通过使用估量框架，我们被迫澄清我们的意思。

我们是在问新药是否有效，包括后续挽救性药物带来的任何效果吗？这导向一个“治疗策略”估量。
还是说，我们是在问新药是否足够有效，以至于患者无需挽救性药物就能无痛？这导向一个“复合”估量，其中成功被定义为无痛且未服用挽救药物的联合结局。

这是两个不同的科学问题，导致两个不同的估量。没有“正确”的答案，但估量框架使所选择的问题对医生、患者和监管机构而言透明且无歧义。

数据的宇宙：从基因组学到普适性

一个真正基本概念的力量在于其可扩展性。在生物信息学中，一次RNA测序实验可能同时测量超过20,000个基因的表达水平。研究问题——“这种药物如何改变基因表达？”——释放出数据洪流。估量为这种混乱带来了秩序。对于每一个基因，我们都可以定义一个精确的目标：在处理和未处理条件下，基因表达的群体平均对数倍数变化，即 $\Delta_g = \log_2(\mu_{g, \text{treated}} / \mu_{g, \text{untreated}})$ 。这将一个令人不知所措的问题转变为20,000个清晰、可回答的问题。

这个概念也迫使我们直面科学中最深层的问题之一：我们的结果适用于谁？假设我们使用通过智能手机应用自愿参加我们研究的人的数据来研究流感疫苗的效果。我们可以计算出在这群志愿者中的效果。但那是我们的估量吗？还是说我们的估量是疫苗对整个城市人口的效果？这两个量，样本平均处理效应（SATE）和人群平均处理效应（PATE），并不相同。自愿参加健康研究的人可能比普通人群更健康、更年轻或更精通技术。定义估量迫使我们声明我们的雄心：我们是满足于对我们的样本发表声明，还是渴望推广到更广阔的世界？如果我们这样做，它就揭示了我们必须做出的假设，以便将我们的发现从志愿者“迁移”到整个人群。

估量作为现代科学的基石

我们现在看到，估量不仅仅是一个定义；它是一条支撑整个科学事业的智识诚实原则。

这一原则指导着我们方法的开发。统计学家不是在真空中凭空发明估计量；他们设计估计量是为了以理想的属性追求一个特定的估量。像目标最大似然估计（TMLE）这样的先进方法被设计成“双重稳健”的，这意味着它们有两次机会做对——如果结局模型或处理分配模型中有一个是正确的，估计量仍然能锁定真实的估量。

这种严谨性具有深远的现实世界后果。美国食品药品监督管理局（FDA）和欧洲药品管理局（EMA）等监管机构现在要求关键临床试验的申办方在研究开始前详细预先指定他们的估量。为什么？因为它防止了一种科学上的投机取巧：在看到数据后移动球门。通过预先承诺一个估量——一个关于治疗、人群、变量以及如何处理伴随事件的精确定义——研究人员锁定了他们正在回答的问题。这确保了证据的可信度和为公众带来新药的过程的完整性。

最后，这种思维方式让科学能够自我审视。任何对真实数据的分析都涉及几十个“研究者自由度”——关于如何处理缺失数据、定义异常值、转换变量等等的选择。在这个“分叉小径的花园”中的每一个岔路口都可能导致不同的结果。我们如何知道一个结论是稳健的，还是仅仅是某一组特定选择的人为产物？“多元宇宙分析”就是答案。它涉及预先指定所有合理的分析选择，对每一种组合运行分析，并检查结果的整个分布。它追问的是，这个结论是否在这个充满可能性的多元宇宙中都成立。这是科学谦逊的终极表达，是承认我们作为分析者所做的每一个选择都塑造了我们产生的估计值的直接后果。这一切都始于那个简单而有力的行动：首先定义你打算击中的目标——估量。