
如何计算那些无法完全看见的事物,是贯穿各门科学的一个基本问题。从追踪难以捉摸的野生动物到掌握疾病爆发的真实规模,隐藏总体对我们理解世界构成了重大障碍。我们如何测量那些无法直接观察到的事物?本文将介绍捕获-再捕获分析,这是一种旨在解决这一难题的精妙而强大的统计方法。通过利用两个或多个不完全样本之间的重叠部分,该技术提供了一种稳健的方法来估计总体规模,揭示了表面之下的真相。
本文将引导您了解这一引人入胜的方法论。首先,我们将探讨其核心的“原理与机制”,从基础的 Lincoln-Petersen 估计量的简单比例逻辑开始。我们将审视使该方法生效的关键假设,以及为处理现实世界数据的复杂性(从小样本量到数据来源之间的依赖关系)而开发的巧妙统计学改进。随后,“应用与跨学科联系”部分将揭示该技术的卓越多功能性,展示同一核心思想如何应用于流行病学、历史研究、公共卫生乃至法规法务等不同领域,彰显其洞察不可见事物的力量。
你如何计算看不见的东西?想象一位生物学家想知道一个湖里有多少条鱼。把湖水抽干是不可行的。那么,你能做什么呢?你可以捕捞一些鱼,比如 100 条,给每条鱼都带上一个小标记,然后把它们放回水中。让它们花一天时间与同伴重新混合后,你再次去捕鱼。这一次,你捕获了 150 条鱼,并发现其中 15 条带有你的标记。
现在,一个绝妙的逻辑就此展开。在你的第二次捕获中,十分之一的鱼是带标记的(150 条中有 15 条)。如果你的捕获是整个湖泊公平、随机的样本,那么可以合理地假设,你最初标记的 100 条鱼也占整个鱼类总数的十分之一。如果 100 条鱼是总数的十分之一,那么总数必定是 1,000 条鱼。这个简单而强大的思想正是捕获-再捕获分析的核心。
我们刚才对鱼所做的操作可以用一个异常简单的方程来表示。设未知的总体总数为 。第一次捕获并标记的数量为 。第二次捕获的数量为 。第二次捕获中已经带有标记的数量(即“重捕获个体”)为 。
核心假设是,你第二次样本中标记个体的比例,能够代表整个总体中标记个体的比例:
通过一些代数变换,我们可以分离出我们唯一不知道的量 :
我们在 上加一个“帽子”(使其成为 ),以表示这是对真实总体的估计,而非精确计数。这个公式通常被称为 Lincoln-Petersen 估计量,是捕获-再捕获方法的基础工具。整个方法都源于这一条优雅的比例推理,它可以从概率和期望值的第一性原理构建而来。
这不仅仅是生态学家的小窍门。想象你是一名公共卫生官员,试图了解两场旨在与边缘化群体建立信任的社区外展活动的影响范围。你发现有 人参加了第一场活动,有 人参加了第二场活动,其中有 人两场都参加了。使用我们的公式,你可以估计出这些活动所接触到的独立社区成员总数不仅仅是参与者的总和,而是大约 人,这其中还包括那些可能被活动的宣传所触及但并未参加任何一场活动的人。这种方法让你能够看到原始数据之外的信息。在一个更严峻的背景下,它甚至可以用来估计非法器官移植的隐藏规模,通过将非政府组织的观察名单与医院并发症报告进行交叉比对,为决策者提供关键数据。
这一原理真正的美妙之处在于其普适性。用于计算池塘中鱼类数量的相同逻辑,也可以应用于估计疾病爆发中的真实病例数。公共卫生机构很少(甚至可以说从未)能够检测到每一起疾病病例。症状轻微的人可能不会去看医生,或者医生可能没有开具检测。捕获-再捕获方法帮助我们看到了这座疾病“冰山”的隐藏部分。
例如,在一次肠胃炎爆发期间,官员们可能有两个患者名单:一个来自电子实验室报告 (ELR),另一个来自急诊科 (ED) 就诊记录。如果实验室报告确定了 人,急诊科日志确定了 人,并且有 人同时出现在两个名单上,官员们就可以估计出真实的爆发规模。一个简单的计算表明,总病例数约为 例,这揭示了两个监测系统合计可能漏掉了近 200 例病例。这些信息对于分配资源和了解公共卫生威胁的真实范围至关重要。
重要的是要认识到捕获-再捕获方法的设计目的:估计一个隐藏总体的规模。这使其区别于其他强大的方法,如应答者驱动抽样 (RDS),后者旨在估计一个特征(如感染率)在一个网络化的隐藏总体中的流行率,而不是其总体规模。每种工具都有其用途,科学的精妙之处在于知道该使用哪一种。
Lincoln-Petersen 估计量看似神奇,但它建立在四个关键假设的基础之上。像任何科学工具一样,只有在这些条件得到满足时,它才能可靠地工作。一个好的科学家不仅使用公式,他们还会深入质疑这些假设是否成立。
总体是封闭的。 这意味着在第一次和第二次抽样之间的时间段内,没有出生、死亡、迁入或迁出。湖中鱼类的总数 必须保持不变。这就是为什么这些研究通常在很短的时间内进行。
标记是永久的且能被报告。 鱼身上的标记不会脱落,并且每一条被重捕获的鱼身上的标记都能被注意到并正确记录。在人类研究中,这意味着在不同名单之间匹配个体的记录关联系统必须高度准确。
每个个体被捕获的几率均等(同质性)。 这是非常重要的一条。它假设总体中的每个个体在每次抽样中被捕获的概率是相同的。没有学会躲避渔网的“避陷阱”鱼,也没有喜欢被捕获的“喜陷阱”鱼。每个患病的人出现在实验室报告名单上的几率是均等的。
两次抽样是独立的。 在第一次抽样中被捕获并不会改变一个个体在第二次抽样中被捕获的概率。两个监测系统彼此独立运作。
违反这些假设可能导致估计出现偏差。例如,如果独立性假设被打破了怎么办?假设一个患有严重肠胃炎的病人更有可能既去急诊科又做粪便检测。这在两个名单之间造成了正相关性。重叠数 将会比随机情况下预期的要大。由于 在我们公式的分母中,一个更大的 会导致对 的估计更小。未能考虑到这种正相关性将导致你低估疫情的真实规模。
那么,当世界不按这些简洁的规则运行时会发生什么呢?这正是科学变得更加巧妙的地方。统计学家和流行病学家并没有放弃,而是对该方法进行了出色的改进,以应对现实的复杂性。
当重捕获数量 非常小时,基本的 Lincoln-Petersen 估计量可能会有偏差。为了解决这个问题,统计学家开发了一个稍作修改的公式,称为 Chapman 估计量。这是一个细微但至关重要的调整:
这个版本提供了一个更准确且偏差更小的估计,尤其是在数据稀疏的研究中。它的正式推导是一个涉及超几何分布的优美的概率论练习,该分布完美地描述了这种从有限总体中抽样的情况。这个小小的调整证明了该领域的严谨性,确保了工具的可靠性,正如在估计几内亚蠕虫病病例 到甲型肝炎感染 的应用中所见。
那么“均等机会”假设呢?在现实世界中,它几乎总是被违反。在我们的疾病冰山中,有症状的重症病例被临床通报系统检测到的可能性远高于轻症或无症状病例。它们有不同的“捕获概率”。
解决方案非常简单:分层法。如果你能在总体中识别出具有不同捕获概率的独特子群体,你就可以分而治之。你在每个群体(或层)内部分别进行捕获-再捕获分析,然后将估计值相加。
例如,在一项传染病研究中,研究人员可能会将人群分层为“有症状”和“无症状”两组。对于有症状组,临床报告和社区筛查的捕获概率可能都很高。对于无症状组,临床报告的概率可能接近于零,而社区筛查的概率仍然显著。通过分别估计冰山每一部分的大小,你可以得到一个更准确的传染总数的估计。忽略这种异质性并将所有人混为一谈,会导致你低估隐藏的、无症状部分的冰山规模。
正如我们所见,如果两个监测名单呈正相关,我们的估计值将会过低。我们能做什么呢?解决方案是增加更多的数据来源。只有两个来源时,你有三个信息(, 和 )来估计两个捕获概率和总体规模。没有空间来估计第四个参数,比如依赖性的强度。
但如果你有三个来源——比如说,医院入院记录 (H)、实验室报告 (L) 和哨点诊所 (S)——情况就大不相同了。现在你有七个观测数据点:七种可能的重叠组合中每个组合的人数(仅 H、仅 L、仅 S、仅 等)。这个更丰富的数据集为你提供了足够的信息来使用更复杂的技术,如对数线性模型。这些模型可以同时估计每个来源的捕获概率以及它们之间的成对依赖关系强度(例如,如果你已经在名单 H 中,那么出现在名单 L 中的额外可能性)。通过显式地对依赖性进行建模,分析能够正确地将大的重叠归因于捕获概率和相关性,从而得出一个更准确——且通常更大——的对未见总体 的估计。
几十年来,捕获-再捕获主要是为了估计一个单一的数字 。但是一场革命已经发生,尤其是在生态学领域。生态学家意识到,动物的位置与其被捕获的概率有着根本的联系。一个其家域正中心位于陷阱网格中央的动物,被检测到的可能性远大于一个其家域仅与研究区域有轻微重叠的动物。
这导致了空间显式捕获-再捕获 (SECR) 模型的发展。SECR 模型不再假设所有个体都有单一的捕获概率,而是将其建模为距离的平滑函数。在陷阱中检测到动物的概率随着陷阱与动物“活动中心”(其家域的中心)之间距离的增加而降低。
这是一个深刻的转变。模型不再仅仅估计“有多少”,而是“有多少,在哪里”。它利用每个被检测到的个体的具体捕获历史——它们在何时被哪些陷阱捕获——来同时估计检测函数的参数,以及最重要的是,整个景观中的种群密度 。模型优雅地对所有未见动物可能存在的位置进行积分,利用已见动物的信息来了解未见动物的情况。
这段旅程——从一个计算鱼类数量的简单比例,到一个用于绘制种群密度的复杂空间模型——展示了科学过程的力量与美。它始于一个简单、直观的想法,通过几十年的批判性思考、改进和扩展,演变成一个具有令人难以置信的精妙性和力量的工具,所有这一切都是为了服务于一个基本的人类追求:测量、理解和看见那不可见之物。
在我们之前的讨论中,我们揭示了捕获-再捕获分析那异常简单的逻辑。你可能会以为这只是生态学家想计算湖中鱼类数量的一个小技巧。确实如此!但故事并未就此结束。事实上,这才是真正冒险的开始。利用两个不完整名单之间的重叠来估计一个隐藏的总数,这个简单的想法是定量科学中最多功能、最强大的工具之一。它出现在最意想不到的地方,从医院病房、历史档案到统计理论的最前沿。我们所计算的“鱼”可能是患有罕见疾病的人,而“湖”可能是 19 世纪的某一年,而“网”则可能是计算机化的健康记录。其基本原理保持不变,揭示了跨学科间惊人的一致性。
该方法诞生于生态学,也正是在这里,我们可以看到其力量超越了简单的计数。想象一下,不是一个湖,而是一个由三个相互连接的湖泊组成的网络。我们不仅想知道鱼的总数,还想了解它们如何在湖泊之间移动。通过为每个来源湖泊的鱼标记上独特的标签,然后在整个系统中重新捕获它们,我们就能做到这一点。重捕获的模式——在阿尔法湖标记的鱼后来在哪里被发现——使我们能够估计鱼从一个湖移动到另一个湖的概率。我们不再仅仅是估计一个静态的数字,而是在绘制一个生态系统内的动态流动图。
这种从计数到理解动态的飞跃是深刻的,它在公共卫生领域找到了最关键的应用。流行病学家常提到“疾病的冰山概念”:对于许多疾病,医疗系统所见的严重、确诊病例只是可见的“冰山一角”,而更大一部分潜藏在水下的轻症、无症状或未确诊病例则未被记录。捕获-再捕获是我们估计那座冰山真实大小的主要工具。
思考一下每年道路交通伤害的负担。一个城市的卫生部门可能有两个主要数据来源:警方报告和医院记录。两者都不完整。轻微事故可能不会报警,一些受伤的人也可能不去医院就诊。通过关联这两个名单,我们可以看到谁同时出现在两者上。正如我们所知,这个重叠部分是关键。它使我们能够估计有多少受伤的人被两个系统都错过了,从而为公共卫生官员提供一个更准确的问题图景,以便他们解决问题。同样的逻辑可以用来估计在公民登记制度不完善的地区,由狂犬病等疾病造成的真实死亡率,方法是结合官方医院记录和社区调查。其结果通常是一个“漏报乘数”,这是一个关键因素,告诉我们官方数字需要调整多少才能反映现实。
该方法不仅用于计算外部现象,我们还可以将镜头向内,评估我们自己复杂系统的表现。我们医院的患者安全系统是否捕捉到了所有不良事件?可能没有。我们可能有一个自动标记潜在不良事件的电子健康记录(EHR)系统,以及一个独立的员工自愿报告系统。通过将这两个系统视为撒向所有不良事件总体的两张“网”,我们可以估计有多少事件被两者都错过了,从而让我们清醒地看到我们安全监测的完整性。
然而,在这里,我们经常遇到一个关键的复杂问题:两个来源可能不是独立的。例如,一个非常严重的不良事件更有可能同时触发 EHR 警报和人工报告。这种“正相关性”会夸大重叠部分,如果我们使用简单的公式,它会误导我们低估遗漏事件的总数。现代的捕获-再捕获方法,特别是那些使用三个或更多来源的方法,可以运用如对数线性模型等复杂的统计工具来解释这些依赖关系,从而给我们一个更稳健的估计。
其中的利害关系可能极其重大。公共卫生部门运行新生儿筛查项目,以在出生时检测罕见但可治疗的遗传性疾病。但他们是否找到了每一个病例?通过将筛查项目的数据库与已确诊病例的临床登记库相关联,我们可以估计假阴性的数量——即筛查项目不幸错过的婴儿。由于现实世界数据的混乱,这项分析变得更加复杂,在没有完美唯一标识符的情况下关联记录需要先进的概率匹配技术来估计重叠部分。
一个基本科学思想的真正美妙之处在于它跨越学科界限的时刻。捕获-再捕获不仅是科学家的工具,也是历史学家的工具。想象一下,试图弄清楚 19 世纪一个县有多少人接种了天花疫苗。你可能有两种不完整的来源:一个诊所的账本和一个教区的监督报告。通过煞费苦心地匹配这两个档案中的姓名,历史学家可以使用捕获-再捕获来估计接种疫苗的总人数,包括那些两个记录中都未出现的人。这将轶事证据转化为公共卫生历史的定量估计,尽管这需要仔细的历史推理来证明来源之间独立性的重要假设。
该方法甚至在法律和经济学世界中也占有一席之地。为了让一家制药公司获得美国食品药品监督管理局(FDA)的“孤儿药”认定——这为开发罕见病疗法提供财政激励——它必须证明该疾病在美国影响的人数少于 人。对于一种诊断不足的疾病,你如何证明这一点?申办方可以使用两个大型但不完整的行政理赔数据库(例如,来自商业保险和公共支付方)作为他们的两个“来源”。通过应用捕获-再捕获分析,他们可以得出一个在统计上站得住脚的疾病总患病率估计,从而直接为一项重大的监管和财务决策提供信息。
也许最抽象也最能说明问题的应用根本不是计算人或动物,而是在于思考发现本身的逻辑。医院认证机构使用“追踪方法学”来检查是否符合安全标准。他们可能会追踪单个患者在医院的全程经历(患者追踪),也可能在一段时间内观察单个单元内的流程(单元追踪)。这是检测“间歇性违规事件”的两种不完善的方法。通过将这两种追踪方法视为一次捕获-再捕获实验,我们可以精确地看到为什么同时使用两者比只用一种更好。重叠部分——被两种方法都捕捉到的事件——使我们能够估计违规事件的总数,包括那些两种方法都错过的事件。我们所测量的“总体”是一个抽象事件的总体,这展示了核心思想的纯粹普适性。
到目前为止,我们所有的例子都得出了一个单一的数字 ,作为隐藏总数的最佳估计。但现代统计学提供了一种更强大、更诚实的方式来思考这个问题。使用贝叶斯框架,我们可以将未知的总体规模 本身视为一个具有概率分布的参数。
我们不再只是得到一个点估计,而是可以使用像吉布斯抽样这样的计算技术来推导出 的完整后验分布。这给了我们一个更丰富的结果:一个关于总体的可能值范围,以及每个值的概率。输出不再仅仅是“我们的最佳估计是 60”,而是“总数最可能在 60 左右,有 95% 的概率它位于 50 和 75 之间”。这种方法完全接纳了不确定性,并提供了我们所知和所不知的更完整的图景。它代表了这一永恒方法的前沿,将一个世纪前的洞见与现代计算统计学的力量相结合。
从一个计算鱼类数量的简单问题出发,捕获-再捕获的逻辑带我们穿越了社会的肌理,揭示了隐藏的真相,并在共同探索不可见世界的过程中,将不同的领域联系在一起。