try ai
科普
编辑
分享
反馈
  • 频率主义概率解释

频率主义概率解释

SciencePedia玻尔百科
核心要点
  • 频率主义概率将概率定义为在多次重复同一实验中,一个事件发生的长期相对频率。
  • p值是在假设零假设为真的前提下,观测到至少与实际结果一样极端的数据的概率。
  • 95%置信区间是由一个程序生成的,在多次重复实验中,该程序有95%的时间会捕获到真实的参数值。
  • 频率主义方法提供了客观的、程序性的误差保证(如I类错误率),这对于科学监管和公共决策至关重要。

引言

在统计学世界里,“什么是概率?”这个看似简单的问题引发了一场深刻的哲学辩论。概率是世界的一个客观特征,还是我们信念的主观度量?答案定义了统计思想的主要流派,其中影响最深远的之一便是频率主义解释。从临床试验到物理学,这种方法为现代科学探究奠定了基石,它提供了在面对不确定性时做出决策的严谨、客观的程序。本文旨在揭开频率主义框架的神秘面纱。第一章“原理与机制”将解析其核心思想,将概率定义为长期频率,并解释假设检验、p值和置信区间等关键工具。随后,“应用与跨学科联系”将展示这些原理如何应用于不同领域,为科学和医学领域的发现与验证提供了通用语言。

原理与机制

进入统计学的世界,就如同提出了一个看似简单得具有欺骗性的问题:我们所说的“概率”究竟是什么意思?它是世界的一个特征,就像电子的质量一样吗?还是关于我们自身知识与无知的一种陈述?你对这个问题的回答将你归入几个思想流派之一,每个流派都有其自身的哲学和工具。在这里,我们将探讨其中一个最强大且应用最广泛的流派的原理:​​频率主义解释​​。它是现代科学(从临床试验到粒子物理学)的基石。它的美妙之处不在于声称能知晓不可知之事,而在于创造出严谨的程序,以便在面对不确定性时做出决策。

作为长期频率的概率

想象一下三位聪明的学生在试图定义概率时的对话。一位逻辑学家可能会主张​​古典​​定义:在一副完美平衡的52张扑克牌中,有13张红心,所以抽到红心的概率就是 1352=14\frac{13}{52} = \frac{1}{4}5213​=41​。这很优雅,但它依赖于一个充满完美对称性和等可能结果的世界,而这在现实中是难得的奢侈。

另一位学生,一位天体生物学家,可能会谈论一颗系外行星上存在生命的可能性。这个事件无法重复。Kepler-186f只有一个。她所说的“千分之一”的概率是一种​​主观​​信念的陈述,是她基于现有证据对个人信心的量化。这是贝叶斯世界观的基础,我们稍后会触及。

频率主义者提供了第三种,一种极为实用的答案。想象我们的第三位学生是一位游戏玩家,她想弄清楚一个视频游戏Boss掉落稀有物品“阳炎之斧”的概率。她不需要完美的对称性或独特的主观信念,她需要数据。如果玩家社区已经与这个Boss战斗了两百万次,而斧头掉落了500次,她会说概率非常接近 5002,000,000=14000\frac{500}{2,000,000} = \frac{1}{4000}2,000,000500​=40001​。

这就是频率主义思想的核心。​​概率是在多次、多次重复同一实验中,一个事件发生的长期相对频率。​​我们不知道一枚硬币正面朝上的“真实”概率。但我们相信,如果我们能无限次地抛掷它,正面朝上的比例将会稳定在一个固定的数值上,而那个数值就是我们所说的概率。对于频率主义者来说,概率不是关于单个事件的;它是一个无限可重复过程的属性。随机性存在于我们收集的数据中,而不是在我们的信念中,也不是在宇宙的基本参数中。

“如果”的世界:假设检验与p值

有了这种概率观,我们如何用它来认识世界?科学家们的工作就是提出问题:这种新药有效吗?这种肥料能提高作物产量吗?频率主义方法提供了一个逻辑优美(尽管有时违反直觉)的框架来回答这些问题,即​​零假设显著性检验(NHST)​​。

这个过程始于建立一个“稻草人”假设,称为​​零假设(H0H_0H0​)​​。零假设通常代表现状,即“无效果”的平淡状态。对于一种新药,H0H_0H0​ 将是该药与安慰剂相比对血压没有影响。我们的研究假设,即药物确实有效果,则是​​备择假设(H1H_1H1​)​​。

我们不试图直接证明 H1H_1H1​。相反,我们试图收集足够有说服力的证据,迫使我们拒绝 H0H_0H0​。实现这一目标的关键工具是​​p值​​。

​​p值​​可能是整个统计学中最易被误解的概念。它不是零假设为真的概率。频率主义者会说,对一个假设做概率陈述是毫无意义的,因为假设(药物要么有效,要么无效)是世界的一个固定状态,而不是一个随机事件。

那么,它到底是什么?p值回答了一个非常具体的“如果”问题:

​​如果我们假设零假设为真(即药物无效),那么观测到至少与我们实际观测到的数据一样极端的数据的概率是多少?​​

可以把它看作一个“意外指数”。如果p值非常小(例如,p=0.006p=0.006p=0.006),这意味着如果药物真的无效,我们观测到的结果将是极其罕见和令人惊讶的。这时我们面临一个选择:要么我们刚刚目睹了一个极不可能的偶然事件,要么我们最初的假设——药物无效——是错误的。一个小的p值表明我们的数据与零假设不太相容,这为我们拒绝零假设并初步接受备择假设提供了依据。要计算在给定数据的情况下零假设为真的概率,就需要进入贝叶斯框架,这要求在实验开始前就明确一个关于药物有效性的“先验信念”。相比之下,p值仅使用数据和零假设来计算。

错误的博弈:Alpha、Beta和功效

基于p值做出决定是一种概率性判断,这意味着我们可能会犯错。在这场宇宙级的法庭审判中,我们可能犯两种错误。

首先,我们可能仅仅因为运气不好而得到一个很小的p值。我们的患者随机样本可能恰好对药物反应异常灵敏,使得药物在无效的情况下看起来有效。这被称为​​I类错误​​:在零假设实际上为真时拒绝了它。这是一个“假阳性”。在开始一项研究之前,我们会设定对这类错误的容忍度。这个容忍度就是​​显著性水平​​,用α\alphaα表示。通常,科学家设定α=0.05\alpha = 0.05α=0.05。这并不意味着如果我们得到一个显著的结果,我们犯错的概率是5%。它意味着我们选择了一个决策规则,如果零假设为真并且我们重复实验数百次,这个规则大约会在5%的情况下导致我们做出假阳性的结论。这是我们方法的长期错误率。

第二种错误则相反:药物确实有效,但我们的研究未能检测到它。也许我们的样本量太小,或者效果很微弱。这被称为​​II类错误​​:在零假设为假时未能拒绝它。这是一个“错失的机会”或“假阴性”。这种错误的概率用β\betaβ表示。

β\betaβ的另一面是一个好实验最重要的特征:​​功效​​,它等于1−β1-\beta1−β。功效是正确检测到真实效果的概率。如果一项研究的功效为0.800.800.80(一个常见的目标),这意味着如果存在某个大小的真实效果,我们的研究有80%的机会检测到它(即,得出一个低于我们α\alphaα阈值的p值)。在一个假设情景中,我们重复一项实验500次来测试一个真正有效的干预措施,我们预期在大约0.80×500=4000.80 \times 500 = 4000.80×500=400次试验中会正确地得出其有效的结论,而在另外100次试验中,我们会遗憾地错过这个效果。功效是科学家花这么多时间规划实验的原因;他们想确保自己有足够的机会找到他们正在寻找的东西。

估计的艺术:置信区间

假设检验给了我们一个“是”或“否”的答案:药物有效果吗?但通常我们想知道更多。我们想问:“它能将血压降低多少?”为此,我们求助于频率主义者的另一件杰作工具:​​置信区间​​。

和p值一样,置信区间是造成极大困惑的根源,但其背后的思想是优美的。让我们用一个类比。想象一下,我们的药物带来的真实、未知的平均血压降低值是一只蝴蝶μ\muμ,它静静地停在一片大田野的某个地方。我们不知道它在哪里。我们的实验允许我们向田野上撒一张网——这个网就是置信区间。

我们撒出网后,它落在了地上,它要么网住了蝴蝶,要么没有。这是一个简单的事实。说“这片落在草地上的特定网里有95%的概率包含蝴蝶”是毫无意义的。

“95%的置信度”不是关于地上那张网的;它是关于我们撒网方法的属性。它意味着我们设计了一种撒网程序,如果我们一遍又一遍地重复这个过程,​​我们95%的撒网操作会成功捕获到那只位置固定的蝴蝶​​。

这就是频率主义的解释。真实参数(μ\muμ)是一个固定的、未知的常数。我们从一个数据样本中计算出的置信区间只是一个随机过程的一次实现。在收集数据之前,区间的端点是随机变量,因为它们依赖于我们碰巧抽到的随机样本。95%是我们对这个程序本身长期可靠性的信心。

这揭示了频率主义框架内在的统一性。一个95%的置信区间与一个α=0.05\alpha = 0.05α=0.05的假设检验紧密相连。该区间包含了所有不会被我们的数据拒绝的可能的零假设值。因此,如果我们计算出的平均血压降低的95%置信区间是[−1.8 mmHg,5.2 mmHg][-1.8 \text{ mmHg}, 5.2 \text{ mmHg}][−1.8 mmHg,5.2 mmHg],因为数值0包含在这个区间内,我们不能在α=0.05\alpha = 0.05α=0.05的水平上拒绝无效果的零假设。这个区间不仅告诉我们统计显著性,还为真实效果的大小提供了一个合理的范围。

因此,频率主义的世界观是一种优雅的纪律。它避免对世界固定的真理做概率陈述。相反,它专注于设计和校准方法——用于检验和估计的程序——这些方法的长期性能我们可以保证。它提供了一种方法,用可靠、客观且在科学进步中发挥了重要作用的工具,来驾驭随机数据的混乱之海。

应用与跨学科联系

在我们穿越了频率主义世界观的原理之旅后,人们可能会好奇:这一切究竟是为了什么?概率被冷静地定义为事件的长期频率,这仅仅是一种哲学偏好,一种构建数学的特定方式吗?答案是响亮的“不”。频率主义解释不仅仅是一种观点;它是在人类各种惊人活动中驱动发现和决策的引擎。从确保你餐桌上的食物安全,到解读气候变化的原因,它为一切提供了智力支架。它是我们用来证明一种新药有效、一种诊断测试可靠、一项科学主张值得我们关注的语言。

现在让我们来探索,这个看似简单的想法——概率是在长期中会发生什么——如何绽放成一个强大的工具包,以驾驭一个充满不确定性的世界。

估计的艺术:我们能有多自信?

想象你是一名食品安全实验室的化学家,任务是测量一种软饮料中防腐剂的含量。你进行一次测量,得到一个数字。你再做一次,得到一个略有不同的数字。第三次,又是一个数字。这些都不是“真实”值;它们都只是估计值,受到测量过程中微小且不可避免的随机性影响而波动。那么,真实的浓度是多少呢?

诚实的回答是,我们永远无法以完美的确定性知道它。但我们并非无能为力。频率主义方法提供了一种极其聪明的出路:​​置信区间​​。在你进行一系列测量后,你可能会报告说,防腐剂浓度的95%置信区间是188.5±3.5188.5 \pm 3.5188.5±3.5 ppm(百万分之几)。

那么,这个“95%置信度”意味着什么?这是整个统计学中最微妙也最关键的一点,它处于频率主义哲学的核心。人们很容易认为它的意思是“真实值有95%的概率落在这个特定区间内”。但这不是一个频率主义者能说的话。对于频率主义者来说,真实值是一个固定的常数——一个自然事实。它不会晃动。它要么在你的区间内,要么不在。概率不是关于参数的。概率,即95%,是关于你用来创建这个区间的程序的。

可以这样想:你有一种制造区间的方法,一种统计捕网机。你想知道的参数是广阔湖泊中的一条静止的鱼。95%的置信保证意味着你的机器足够好,如果你在不同的日子、不同的条件下一次又一次地撒网,你95%的撒网操作都会成功捕获这条鱼。对于你刚刚计算出的这一个区间,你不知道它是95%成功捕获中的一个,还是5%失败中的一个。但你对产生它的方法有信心——准确地说是95%的信心。

这是一种极其诚实和实用的立场。它为报告不确定性提供了一个通用标准。当世界各地的科学家报告95%置信区间时,他们都在使用同一种语言来描述他们估计程序的可靠性。无论他们是估算野生动物通道效果的生态学家,测量基因表达的生物信息学家,还是量化人为强迫对气候影响的气候科学家,置信区间都提供了一个共同的、客观的程序可靠性度量。

正是在这里,我们看到了与贝叶斯观点的最鲜明对比。贝叶斯分析确实会产生一个区间——一个可信区间——关于这个区间,人们可以说“参数落在此范围内的概率为95%”。这可能看起来更直观,但它是有代价的:贝叶斯主义者必须从一个“先验概率”开始,这是一个代表他们在看到数据之前对参数信念的分布。频率主义者通过坚持对数据生成过程的陈述,避免了这种主观的起点,旨在追求一种其属性可以不依赖先验信念来描述的程序。

决策的逻辑:从诊所到法庭

科学不仅仅是关于估计;它还关乎做出决策和评判证据。频率主义框架为这一过程提供了基石逻辑,这种逻辑在医学领域最为明显。

我们如何知道一种新药是有效的?我们进行随机对照试验(RCT),这是医学证据的黄金标准。在RCT中,我们比较接受新疗法组的某个结果的频率与接受安慰剂或标准护理组的频率。如果治疗组200名患者中有40人出现不良事件,我们估计他们的风险为相对频率pT=40200=0.2p_T = \frac{40}{200} = 0.2pT​=20040​=0.2。如果对照组200名患者中有60人出现该事件,他们的风险是pC=60200=0.3p_C = \frac{60}{200} = 0.3pC​=20060​=0.3。这些概率是纯粹的频率主义量。

由此,我们可以提出不同的问题。我们可以问关于​​风险比​​(RR=pT/pCRR = p_T / p_CRR=pT​/pC​)的问题,它告诉我们疗法如何使风险倍增。或者我们可以问关于​​风险差​​(RD=pT−pCRD = p_T - p_CRD=pT​−pC​)的问题,它告诉我们风险的绝对变化。每种度量都从不同的视角审视治疗效果,但所有这些都建立在比较频率的基础上——这正是频率主义思想的精髓。这就是驱动现代循证医学的机制。

这种逻辑从测试药物延伸到构建医学工具。考虑一下现代医院的“脓毒症警报”系统,这是一个计算机算法,它持续监控患者数据,并试图预测谁即将发生危及生命的感染。我们如何知道这个警报系统是否好用?我们使用频率主义的指标来评估它。

  • ​​灵敏度​​:如果一个病人真的正在发展为脓毒症,警报响起的概率是多少?这是在患病者中正确警报的长期频率。
  • ​​特异度​​:如果一个病人没有发展为脓毒症,警报保持沉默的概率是多少?这是在健康者中正确保持沉默的长期频率。

这些是测试本身的属性,通过重复试验来定义和测量。它们是频率主义的保证。高的灵敏度和特异度告诉医院管理者,他们购买了一个可靠的工具。

当然,床边的临床医生面临一个不同的问题。当这个特定病人的警报响起时,这个病人患有脓毒症的概率是多少?这是一个贝叶斯问题,它需要将测试的频率主义属性与关于该病人在一开始患脓毒症可能性的先验信念结合起来。这完美地展示了两种框架并非总是对立的;通常,经过频率主义校准的工具为贝叶斯计算提供了必要的证据。

科学家的赌注:关于意外数据和P值

也许频率主义工作坊中最著名——也最具争议——的工具是​​p值​​。p值的逻辑是对一种非常自然的人类直觉的形式化:源于意外的论证。

想象一位生态学家想知道一个新的野生动物地下通道是否有效。“零假设”,即无效果的默认假设,是动物穿越的频率没有改变。生态学家收集了一年的数据,发现频率有所增加。问题是:这种增加是真实的,还是仅仅是日常随机波动的幸运巧合?

p值回答了一个非常具体的问题:“如果地下通道没有效果(如果零假设为真),那么我们仅凭随机机会观察到这么大甚至更大的增加的概率是多少?”。

如果这个概率——p值——非常小(比如,p=0.04p=0.04p=0.04),这意味着在无效果理论下,我们的观察结果将是一个百年一遇的4%的小概率事件。此时,科学家面临一个选择。他们可以相信一个罕见事件发生了,或者他们可以开始怀疑导致这个结论的前提——零假设。当p值足够小(传统上低于像0.050.050.05这样的阈值)时,科学家们通常选择后者,拒绝零假设,并得出他们的发现是“统计上显著的”结论。

理解p值不是什么至关重要。它​​不是​​零假设为真的概率。一个0.040.040.04的p值并不意味着地下通道无效的可能性有4%。它是关于数据的陈述,是在假设为真的条件下得出的;它不是关于假设本身的陈述。这种常见的误解是许多困惑的根源,但如果理解正确,p值是一个标准化的度量,衡量我们的数据在持怀疑态度的默认假设下有多么令人惊讶。

一个多元的概率世界

那么,这给我们留下了什么?频率主义和贝叶斯方法似乎在问不同的问题,并给出不同类型的答案。频率主义者将参数视为固定的常数,将概率视为长期可重复事件的属性。贝叶斯主义者将参数视为我们可以持有信念的事物,将概率视为该信念的表示。

哪一个是对的?这是个错误的问题。它们是用于不同工作的不同工具。

频率主义框架是客观、程序性保证的语言。它对于公共科学和监管是不可或缺的。当政府机构需要批准一种药物,或工程师需要认证一个制造过程时,他们需要具有对每个人都相同的已知长期错误率的方法。

贝叶斯框架是个人信念更新的逻辑。它天然适合于模拟单个代理人的推理过程。例如,“贝叶斯大脑”假说认为,我们自身的神经机制通过用传入的感官数据更新关于世界的先验信念来工作。用一个禁止为世界状态分配概率的框架来模拟这个内部的、主观的过程是不自然的。

通常,这两种哲学协同工作。一位医生使用一种基因测试,其频率主义属性(灵敏度和特异度)是在大样本人群上建立的。但为了告诉你你的个人风险,医生会将这些数字与你的家族史(一个先验信息)结合起来,进行明确的贝叶斯计算。

因此,频率主义解释并非一种深奥的教条。它是一种极其实用和强大的思维方式,使我们能够构建现代科学、技术和医学的世界。它为我们评估主张、认证工具以及在面对不确定性时做出决策提供了一个共同的基础。通过专注于那些可以在长期内被重复、计数和验证的事物,它为人类知识的共同事业提供了一个有纪律的、客观的基础。