
我们的研究需要多少受试者?这个问题是实证研究中最关键的问题之一,是科学发现可信度和可靠性的基石。一项样本量不足的研究就像一台对准遥远恒星的劣质望远镜——它缺乏将真实发现与随机背景噪声区分开来的能力,从而导致错失良机或得出错误结论。相反,一项规模过大的研究会浪费资源,并且在伦理上也可能存在问题。本文阐述了样本量确定的基本原则和实际应用,在研究问题与一个强大、高效的研究设计之间架起了一座桥梁。在第一部分“原则与机制”中,我们将解构样本量计算的核心配方,探讨效应量、变异性、显著性和统计功效这四个关键要素,并讨论针对现实世界复杂情况的关键调整。随后,“应用与跨学科联系”部分将展示这些原则如何应用于不同领域,从为医学临床试验提供支持、构建公共卫生调查,到为研究本身的价值提供经济决策信息。
想象一下,你是一位试图发现一颗围绕遥远恒星运行的新的、暗淡行星的天文学家。你需要什么?至少,你需要一台足够强大的望远镜来收集这颗行星的微弱光芒。在很多方面,你望远镜的“威力”类似于一项科学研究的样本量。它是我们用来收集足够信息,以区分真实现象——即真正的效应——与宇宙中随机噪声的工具。我们需要多大的样本量?答案并非一个神奇的数字。相反,它源于四个基本概念之间精妙的相互作用,这个配方构成了研究设计的核心。
从本质上讲,任何样本量的计算都是一种平衡行为,是在我们想要发现什么与我们希望以多大确定性去发现它之间的一种协商。这种协商涉及四个关键要素。
首先是效应量。这是你希望检测到的信号的强度。你正在寻找的新行星是像木星一样大,还是一块小石头?在医学上,一种新药是使血压显著降低20个点,还是仅有2个点的细微变化?一个巨大、明显的效应很容易被发现,只需要较小的样本量。而一个微小、细微的效应则需要大得多的样本量,才能有信心地将其与随机波动区分开来。数据的性质决定了你如何衡量这种效应:对于像血压这样的连续性测量,它可能是一个均值差异;对于像“感染”与“未感染”这样的二元结局,它可能是一个风险比;对于像生存期这样的时间-事件结局,它可能是一个风险比(hazard ratio)。
其次是测量中固有的变异性或噪声。如果你测量的是职业篮球运动员的身高,变异会相对较小。但如果你测量的是一个大城市所有成年人的身高,变异将会非常巨大。在一个安静、低变异性的背景下,一个小的效应很容易被看到,但在一个嘈杂、高变异性的背景中,它就会被淹没。因此,为了规划一项研究,我们必须估计这种变异性——对于连续性结局,或许使用标准差();对于二元结局,或许使用基线比例(),因为比例的方差直接取决于其值()。如果基线比例完全未知,最保守(也最常见)的假设是使用 ,因为这是方差最大的点,可以确保你的样本量足够大。
最后两个要素是哲学性的,它们定义了游戏的规则。科学是一项谨慎的事业。我们深切关注两种可能犯的错误。第一种是I型错误,即“假警报”,我们断定存在一个效应,而实际上它只是随机性的偶然结果。这种错误的概率用 表示,即显著性水平。通常,科学家会将 设得很低,常常是0.05,这意味着他们愿意接受二十分之一的假警报几率。
第二种错误是II型错误,即“错失的发现”,我们未能检测到一个真实存在的效应。这种错误的概率是 。其反面是统计功效,定义为 。功效是你的研究将会检测到一个效应的概率,前提是该效应是真实的。如果你的研究有80%的功效,那么你成功发现的几率就是80%。
在这里,我们遇到了一个根本性的权衡。对于一个固定的样本量, 和 陷入了一场宇宙级的拉锯战。如果你让显著性的标准更严格(例如,为了更谨慎地对待假警报,将 从0.05降至0.01),你同时也就增加了错过真实效应的风险(你的功效,,会下降)。一项为 和80%功效设计的研究,如果突然被要求达到 的标准,其功效可能会骤降至不足60%,从而将一项充满希望的实验变成一项很可能失败的实验。赢得这场拉锯战的唯一方法——既要高确定性地避免假警报,又要高功效地发现真实效应——就是增加你的样本量。
综上所述,比较两组的简单研究所需的样本量()在概念上可以写成:
“确定性因子”是一个从我们选择的 和 推导出的值(具体来说,来自正态分布的分位数,如 和 )。这个关系揭示了一个关键的、非直观的真理:所需的样本量与效应量的平方成反比。这意味着,要检测一个大小只有一半的效应,你需要的不仅仅是两倍的样本,而是四倍的样本。这个严酷的数学现实解释了为什么检测细微的效应需要巨大且昂贵的研究。
基本配方假设了一个由独立、完整的观测值组成的完美世界。当然,现实要混乱得多。样本量计算的艺术中一个关键部分就是预见这些混乱并为之进行调整。其统一的原则是:任何减少你从每位受试者那里获得信息的因素,都会迫使你招募更多的受试者来弥补。
想象一下,你想测试一种新的教学方法。你可以将个别学生随机分配到新方法组或旧方法组。或者,为了简便,你可以随机分配整个班级。但是,同一个班级的学生并非相互独立:他们共享同一位老师、同一个教室环境,并相互影响。他们彼此之间的相似性要高于与其他班级的学生。这种相关性由组内相关系数(ICC)来衡量。
由于这些观测值并非完全独立,四个班级的100名学生提供的信息量与100名被单独随机化的学生并不相同。为了解释这一点,我们必须将样本量乘以一个称为设计效应(DE)的因子,其计算公式为 ,其中 是平均整群规模。即使在平均规模为30名学生的整群中,一个仅为0.02的小ICC也需要增加58%的样本量才能达到相同的功效。这表明,随机化的单位深刻地影响着信息的价值。
涉及人的研究就像用一个漏水的桶打水。受试者可能会中途退出(失访),或者仅仅是错过预约,导致数据缺失。如果你计算出需要400名拥有完整数据的受试者,但预计会有20%的人退出,你就面临一个“有效样本量”问题。为了最终得到400人,你必须从更多人开始。所需的样本量必须按 的因子进行扩大,其中 是预计的受试者流失比例。对于20%的流失率,这个因子是 ,意味着你需要多招募25%的受试者。
当统计学家计划使用一种称为多重插补的技术来处理缺失数据时,也适用这一原则的一个更复杂的版本。他们可以估计一个信息缺失分数(),该分数量化了由于数据缺失而损失的精度。就像处理退出一样,为维持期望的功效,一个完整数据研究所需的样本量必须按 的因子进行扩大。这两种情况揭示了一个美妙的统一性:无论是通过物理上的退出还是统计上的缺失,信息的损失都必须通过增加样本量来补偿。
有时,更大的样本量是不可行的。优秀研究设计的精妙之处常常在于提高效率的策略——即从更少的人身上获取更多的信息。
结局中的许多“噪声”或变异性并非纯粹随机;它们是可预测的。在一项关于新型减肥药的研究中,结局(最终体重)与起始体重密切相关。这种基线变异可能会掩盖药物的真实效果。通过测量这个基线协变量并将其纳入统计模型(一种称为协方差分析,或ANCOVA的技术),我们可以在统计上解释其影响。这样做可以减少无法解释的残差方差。这种减少的量与协变量的预测能力直接相关,用 (它所解释的方差比例)来衡量。所需的样本量则按 的因子减少。如果一个基线测量解释了结局变异的30%(),你就可以用原来70%的样本量达到相同的功效。这就像戴上降噪耳机,以便更清楚地听到微弱的耳语。
有时,提高效率最强大的工具是研究设计本身。想象一下,你想研究一种影响万分之一人口的罕见疾病。如果你采用队列研究设计,随访一群人,看谁会得病,你将需要招募成千上万的人,才能观察到少数几个病例。所需的样本量与基线风险()成反比,这使得这种方法对于罕见结局的效率极低。
病例-对照研究设计提供了一个绝佳的替代方案。你不是等待病例出现,而是直接从医院招募他们。然后,为每个病例招募一个或多个没有该疾病的可比“对照”。通过比较这两组人过去的暴露情况,你可以以极高的效率估计比值比。这种设计巧妙地规避了对罕见基线风险的依赖,而这种依赖正是队列研究在处理此类问题时的一大障碍。
大多数统计公式都含蓄地假设我们是从一个无限大的总体中抽样。但如果你的总体是有限且小的,比如某家公司5000名员工呢?当你进行无放回抽样时,你抽取的每一个新个体都比上一个提供了略多的信息。你不仅在了解这个总体,同时也在减少未知部分的范围。这种效应通过有限总体校正来体现,它调整了方差估计,从而减少了所需的样本量。这是一个微妙而美妙的提醒:测量的行为本身就可以改变我们正在测量的系统。
归根结底,确定样本量并非一个枯燥、机械的计算。它是一项深刻的远见练习,也是研究设计的一项基础性工作。它迫使我们精确地定义我们的问题,直面确定性与资源之间的权衡,并创造性地思考如何最有效地收集信息。最终的那个数字,是我们实验策略的体现,是我们为购买关于世界的一份可靠知识所必须花费的货币。
在掌握了样本量的数学机制之后,我们可能会倾向于将其视为研究道路上的一个枯燥的技术障碍。但这就像看着画家的画笔,只看到木头和毛发一样。真正的魔力在于它们创造出的作品。“我们需要多少?”这个问题不仅仅是一个后勤计算;它是一个深刻的疑问,位于伦理、经济、实践以及知识哲学本身的交汇点。它是一座连接绝妙想法与可信发现的桥梁。现在,让我们跨过这座桥,看看它通向何方,探索样本量的原则如何为各种各样的科学事业注入生命。
没有什么地方比在临床医学中,“需要多少?”这个问题更为关键了。每一种新药、外科技术或疗法都必须在临床试验的熔炉中证明其价值。在这里,样本量是真理的仲裁者,而正确地确定它是一项伦理上的必要责任。
想象一下,研究人员想测试一套新的、经过强化的程序,以预防术后感染。当前的感染率可能是8%,他们希望新的组合方案能将其降低到5%。这3个百分点的下降是真实效应,还是仅仅是偶然?为了找出答案,我们需要比较两组患者。如果我们使用的患者太少,一个真正的改善可能会被淹没在随机机会的噪声中。如果我们使用的患者太多,我们会不必要地让参与者接受可能较差的治疗,并浪费宝贵的资源。样本量计算找到了“最佳点”。它精确地告诉我们每组需要多少患者,才能有信心——通常是80%的功效——如果改善是真实的,我们的研究将会检测到它。在实践中,这种计算还必须洞察世事,考虑到一些患者可能会退出研究,这迫使我们招募更多的人来维持我们的统计功效。
无论结局是一个简单的“是/否”事件(如感染),还是一个连续性测量,这一逻辑都适用。考虑一项牙科研究,比较两种漂白技术。这里的“效应”不是一个比例,而是颜色的变化,用一个连续的标度来衡量。初步数据可能会提示患者之间颜色变化的变异性有多大。一个具有临床意义的改善被定义出来——也许是在一个标准颜色标度上变化2.0个单位。利用这些关于变异性和期望效应的估计,我们可以计算出每组需要多少受试者才能可靠地检测到这种差异。这与感染试验的基本原则相同,只是适应了不同类型的数据。
有时,原始效应量不如标准化的效应量有用。在心理学中,一种新疗法(如针对抑郁症的短期心理动力学心理治疗,STPP)的效果通常以症状量表上的变化来衡量。为了使可能使用不同量表的不同研究的结果具有可比性,研究人员通常用Cohen’s 来思考——即均值差除以标准差。一个“中等”效应可能是 。规划一项旨在检测这种效应的研究需要一个特定的样本量。但这个数字并非故事的结局。招募126名重度抑郁症患者并为他们提供专门的、多次的治疗,这是否可行?这个统计要求立即迫使统计学家、临床医生和项目经理之间就招募率、治疗师能力和研究预算展开跨学科对话。抽象的数字变成了一个具体的后勤挑战。
此外,并非所有试验都比较两个独立的组。在某些情况下,我们可以通过使用配对设计来提高效率,即每个受试者都作为自身的对照。想象一项医学影像研究,旨在评估来自MRI扫描的血流参数 等测量的可重复性。受试者被扫描两次,我们分析配对的差异。因为我们消除了受试者之间的变异性,只关注每个受试者内部的变异性,这些设计通常可以用少得多的参与者检测到一个效应,使其成为强大而经济的工具。
科学不仅是检验干预措施,也关乎观察、估计和诊断。在这些领域,样本量同样是决定我们能多清晰地看世界的工具。
考虑一下像CRISPR基因编辑这样的新技术的诞生。在它被考虑用于临床之前,其风险必须被一丝不苟地量化。一个主要的风险是“嵌合现象(mosaicism)”,即一个胚胎中混合了编辑过和未编辑的细胞。一个监督这项研究的伦理委员会会要求知道:嵌合现象的发生率是多少?你能以多高的精度来估计它?研究人员可能预计发生率约为20%。然而,委员会要求这个估计值的95%置信区间宽度不超过 。这并非一个随意的要求,而是出于尽职调查的法律和伦理要求。利用单一比例样本量的原则,我们可以计算出必须分析多少个独立编辑的胚胎才能达到这种精度水平。一个不精确的估计在科学上和伦理上都是无用的,因为它未能提供社会在推进这样一项重大技术前所要求的严格风险量化。
这种对精度的需求无处不在。一个临床数据科学团队在构建一个预测不良事件的AI模型时,需要知道目标人群中这些事件的基线风险。为了正确校准他们的模型,他们需要以一个很窄的置信区间来估计这个风险。一个计划好的、例如8个百分点的宽度,精确地决定了他们必须在验证队列中包含多少份患者记录才能实现这一目标。
同样的逻辑也支撑着诊断医学。假设为一种罕见且毁灭性的疾病,如克雅氏病(Creutzfeldt-Jakob disease, CJD),开发出一种新的生物标志物。为了验证它,我们需要知道其灵敏度:患有CJD的人中有多少百分比会正确地检测出阳性?我们需要高精度地估计这个灵敏度。我们的计算将告诉我们所需的已确诊CJD患者的最小数量。但CJD是罕见的,即使在被转诊到专科诊所的人群中也是如此。如果转诊人群中的患病率仅为20%,我们可以用这个数字来计算我们必须招募的患者总数,以找到我们分析所需的CJD阳性病例数量。因此,样本量计算涉及一个两步逻辑,将所需的统计精度与疾病的流行病学现实联系起来。
这个逻辑可以扩展到整个人群。计划进行全国性调查以估计乙型肝炎患病率的公共卫生官员必须决定要检测多少人。但他们不能简单地从数百万人口的国家中随机抽样个体。相反,他们使用整群抽样——随机选择村庄或地区(整群),然后在其内部抽样人群。但是,同一个村庄的人们通常比其他村庄的人更相似。来自同一个整群的每个新个体提供的新信息都更少。这种低效率由“设计效应”(DEFF)来体现。DEFF为2意味着我们需要调查的人数是简单随机抽样下的两倍,才能达到相同的精度。这个统计概念对预算、现场团队部署和实验室能力具有巨大的后勤影响[@problem-id:4591895]。
随着我们的科学问题变得越来越复杂,我们的研究设计和样本量计算也必须随之进步。现代心理学,以其对日常经验的关注,提供了一个绝佳的例子。
想象一项研究,调查一个人的日常乐观情绪波动是否能预测他们第二天早上的心率变异性(HRV)。研究人员可能会在几周内从许多参与者那里收集数据。这创造了一种层级结构:重复测量数据嵌套在个体内部。我们感兴趣的是个体内效应:对于同一个人来说,在较为乐观的一天之后,其HRV是否会倾向于更高?
为了回答这个问题,我们使用混合效应模型。这种模型的样本量计算更为复杂。它不仅取决于我们正在寻找的效应大小,还取决于每个人的重复测量次数,以及我们的预测变量(乐观情绪)和结局变量(HRV)在每个人内部的变异性。有趣的是,在估计这种纯粹的个体内效应时,像组内相关系数(ICC)这样的因素——它衡量了HRV方差中有多少是由人与人之间的稳定差异造成的——就变得无关紧要了。研究设计,就其本质而言,已经将个体内和个体间的现象解耦,而样本量计算正反映了这种美妙的理论清晰性。
到目前为止,我们一直将样本量视为实现期望统计确定性的手段。但还有另一种,也许更深刻的方式来构建这个问题,它来自经济学的世界。如果我们能够量化知识本身的价值呢?
在药物经济学中,这是通过样本信息期望价值(EVSI)的概念来实现的。想象一个卫生系统必须决定是否采用一种昂贵的新药。关于其真实有效性存在不确定性。做出错误的决定(例如,采用一种无效的药物或未能采用一种更优的药物)在人群层面上具有巨大的成本。一项临床试验可以减少这种不确定性,增加做出正确决定的几率。EVSI就是进行那项试验所带来的预期货币收益。
然而,信息具有边际效益递减的特点。最初的几十个患者告诉你很多信息;接下来的几十个告诉你的就少一些。这是可以建模的。与此同时,一项研究的成本有一个固定的启动成本和每个参与者的成本。我们现在可以提出一个非常了不起的问题:最优样本量是多少?答案不是基于功效,而是基于价值。我们可以绘制EVSI与研究成本的关系图。最优样本量 是使研究净价值最大化的那一个:。这种方法不仅可以确定一项研究是否值得进行(其价值是否大于其成本?),还能找到代表了降低不确定性方面最有效投资的样本量。
从基因编辑的伦理到公共卫生的后勤,从心理治疗的细微之处到药物审批的经济学,这个简单的“需要多少?”的问题引领我们踏上了一段非凡的旅程。它揭示了自己并非一项乏味的苦差事,而是一个统一了不同探究领域的基本概念。它迫使我们精确地定义我们的问题,诚实地面对我们的局限,并明智地分配我们的资源。归根结底,它就是实证证据本身的基本法则。