手动分割：自动化分析的人类基础

玻尔百科

定义

手动分割：自动化分析的人类基础是指由专家驱动的图像结构勾画过程，是医学影像和计算机视觉领域中建立“金标准”数据的核心方法。该过程通过提供高质量的标注来训练、测试和基准化自动化人工智能系统，但在实践中面临着数据模糊性和不同专家间观察差异的挑战。现代统计方法通常结合多位专家的输入来估算鲁棒的潜在真相，以确保定量放射组学特征的可靠性和科学研究的可重复性。

核心要点

手动分割是由专家驱动的勾画图像结构的过程，其根本挑战在于数据的模糊性（偶然不確定性）和专家意见的分歧（观察者间差异）。
分割边界的微小变化会显著改变定量的放射组学特征，从而影响科学结果的可靠性和可重复性。
手动分割非但没有过时，反而成为关键的“基准真相”数据来源，用于训练、测试和评估旨在取代它的自动化人工智能系统。
现代统计方法不再将单个专家的标注视为完美真理，而是结合多位专家的输入来估计一个更稳健的“潜在真相”以供验证。

引言

在从医学到材料科学的各个领域中，围绕图像中某个对象画一条线的简单动作是定量分析的基石。这个过程被称为手动分割，是将图片转化为数据的关键第一步。然而，这一基础性操作充满了模糊性和主观性。生物边界固有的模糊性以及专家判断的差异导致了变异性，提出了一个至关重要的问题：我们如何在一个看似摇摆不定的测量基础上建立起一门稳健的科学？

本文深入探讨了那条“摇摆不定的线”背后的科学。它剖析了不确定性的来源及其对科学测量的影响。您将了解到辅助并稳定这一人类驱动过程的智能工具背后的优雅原理。这段旅程将揭示一个深刻的视角转变：从将手动分割视为简单的分析任务，到理解其作为“基准真相”——用于教导和验证下一代人工智能——的现代、不可或缺的角色。

我们将首先探讨手动分割的核心原理与机制，从感知的挑战及其对定量特征的影响，到嵌入在半自动工具中的数学解决方案。随后，我们将考察其应用与跨学科联系，展示这一由人类驱动的过程如何在外科规划、病理学和神经科学等不同领域中，作为自动化系统的基本基准，最终在人类专家与机器之间建立起一种共生伙伴关系。

原理与机制

观看的艺术与描绘的科学

想象一位经验丰富的放射科医生凝视着一张颗粒状的、单色的医学扫描切片。在复杂的灰色织锦中，她看到了它：一个肿瘤。她现在的任务看似简单：围绕它画一条线。这种勾画或称手动分割的行为，是定量医学影像学的基石。这是将图片转化为数据、将阴影转化为测量的第一个关键步骤。但这个简单的描绘动作是整个科学过程中最深刻和最具挑战性的步骤之一。它正是人类专业知识、感知和判断与生物学混乱现实交汇的地方。

肿瘤究竟在哪里结束，健康的组织又从哪里开始？在屏幕上，没有一条粗黑的界线。取而代之的是一个模糊、暧昧的过渡，一个不确定的半影区。一位专家可能会将边界画得稍微宽泛一些，另一位则可能更保守。如果我们让同一位专家一周后再次执行此任务，她甚至可能与自己产生分歧。这不是专业能力的失败，而是对数据真实情况的诚实反映。这一根本性挑战被称为观察者间差异。

这种差异源于更深层次的东西，一个物理学家和统计学家称之为偶然不确定性（aleatoric uncertainty）的概念。它是我们试图测量的世界中固有的、不可简化的随机性或“噪声”。它源于扫描仪的物理限制（引入电子噪声），也源于生物学现实本身。组织相互交织，边界模糊不清，扫描图上的单个像素或体素可能包含多种细胞类型——这种现象称为部分容积效应。这种偶然不确定性是“生物学的迷雾”，是我们视觉精确度的根本限制。因此，手动分割不仅仅是描摹；它是一位专家在 navigating 这片迷雾时所做的最大努力。而且，由于每位专家的路径都略有不同，他们的“地图”也会有所不同。那么，我们如何在一个看似摇摆不定的基础上建立一门稳健的科学呢？

一条摇摆不定的线的后果

这种“摇摆”之所以如此关键，在于我们接下来要做什么。分割所描绘的边界创建了一个感兴趣区域 (ROI)。我们从这个 ROI 中提取放射组学特征——一套丰富的数学描述符，我们希望这些描述符能揭示肿瘤的秘密，比如它的侵袭性或对治疗的可能反应。这些特征，即我们分析的定量输出，主要分为两大类：

形状特征：这些特征描述了 ROI 本身的几何形状。它们仅根据掩模计算，不考虑内部的图像强度。可以把它们看作是在描述容器：它的体积是多少？表面积是多少？它有多圆或多锯齿？
一阶强度特征：这些特征描述了 ROI 内部像素或体素强度的统计分布。它们是根据边界内强度值的直方图计算出来的。它们描述了容器的内容：平均亮度是多少？变化有多大（方差）？亮度值的分布是否偏向一侧（偏度）？

现在，想象一下那条摇擺不定的线的后果。边界的一个微小移动直接改变了 ROI。这种看似微不足道的变化，可能会对我们计算的特征产生巨大且通常不直观的影响。形状特征，就其本质而言，非常敏感。一个稍微更锯齒的边界，即使它包围的体积相同，也會有大得多的表面积。这反过来会改变任何依赖于体积与表面积之比的特征，比如球度（sphericity）。

一阶特征也可能出人意料地脆弱。虽然一个大的、同质性肿瘤的平均强度可能相对稳定，但像偏度和峰度这样的高阶统计量却不然。这些测量对强度分布的“尾部”极为敏感。意外地包含了周围组织中几个非常亮或非常暗的体素，可能会使这些特征陷入混乱，导致一次分割与下一次分割的值大相径庭 [@problemid:4554354]。

我们可以量化这种分歧。假设一位专家的分割定义了一个体素集合 $A$ ，另一位的分割定义了一个集合 $B$ 。我们可以使用像Dice 相似系数 (DSC) 或 Jaccard 指数（交并比） 这样的指标来衡量它们的重叠度。DSC 的定义是 $2|A \cap B| / (|A| + |B|)$ ，其中 $|A \cap B|$ 是它们一致的体素数量，而 $|A|$ 和 $|B|$ 是每个分割中的总 voxel 数。值为 $1$ 表示完全一致， $0$ 表示完全没有重叠。在真实场景中，一个半自动工具可能产生一个包含 $1000$ 个体素的掩模，而专家的参考标准是 $900$ 个体素，重叠部分为 $800$ 个体素。DSC 将会是一个听起来不错的 $16/19 \approx 0.84$ 。然而，这个“良好”的重叠掩盖了一个关键事实：算法包含了专家拒绝的 $200$ 个体素（假阳性），并漏掉了专家包含的 $100$ 个体素（假阴性）。该算法主要是对病变进行了过度分割。超过 $10\%$ 的体积差异并非微不足道的偏差；它是测量误差的一个重要来源，足以决定一项科学研究的成败。

援手：智能工具的崛起

鉴于纯手动分割既费力、耗时又易变，研究人员长期以来一直在寻求与机器的合作。这催生了半自动分割工具的发展，即由人类提供高层指导，算法处理繁琐的逐像素工作。人类是建筑师，机器是总 строитель。这些工具不仅仅关乎自动化；它们体现了计算机科学和优化理论中的优美原理。让我们来看看两个经典的例子。

想象一下 Live-Wire 工具，通常被称为智能剪刀。对于这个算法来说，图像不是一张平面的图片，而是一个三维的景观。平坦、均匀的区域是高地，而像肿瘤边界那样的锐利边缘则是深谷。“行进”的成本在峡谷中很低，而在高地上很高。用户的角色仅仅是在期望的边界上插上几面旗帜（种子点）。每次放置后，算法使用像 Dijkstra 算法这样的经典图搜索方法，立即计算出从前一面旗帜到当前光标位置的“最便宜”路径。结果是神奇的：光标似乎“吸附”到了物体的边缘，单击一下就创建了边界的一个完美片段。用户引导，算法找到最优的局部路径。

基于涂鸦的图割（Scribble-based Graph Cuts）则基于不同的哲学。在这里，用户在感兴趣的对象内部（“这肯定是肿瘤”）和外部（“这肯定是背景”）提供粗略的涂鸦。然后，算法将图像视为一个由相互连接的像素组成的庞大网络。它添加了两个特殊节点，一个“源”（代表肿瘤）和一个“汇”（代表背景）。用户的涂鸦充当锚点，将一些像素永久地绑定到源，另一些绑定到汇。算法的任务是找到分离整个像素网络的“最小代价切割”，将其分为两组——连接到源的和连接到汇的。这个切割的代价是一个设计杰作。它惩罚两件事：（1）将像素分配到一个它不相似的组（基于从涂鸦中学到的统计数据）；（2）切断两个看起来非常相似的相邻像素之间的连接。该算法使用强大的最大流/最小割优化，找到一个平衡了区域一致性和边界平滑性的全局最优解。这是一个将感知任务转化为可解数学问题的惊人例子。

通过将专家知识嵌入数学约束中，这些工具减少了用户的自由度，提高了速度，并且至关重要的是，提高了可重复性。那条摇摆不定的线变得更稳定了一些。

机器中的心智：理解人机二重奏

与这些智能工具的互动不仅仅是用户指挥机器；它是人类心智与计算过程之间动态、实时的二重奏。我们可以借助人机交互、物理学和信息论的原理，以惊人的清晰度分析这种共舞。

一次交互的总时间可以被分解。一部分是人体工程学的，即移动鼠标和点击的物理动作。这可以通过Fitts 定律得到优美的描述，该定律指出，移动到目标的时间是到目标的距离及其大小的对数函数。一个设计良好、按钮大而易于访问的界面遵循这一定律，并最大限度地减少了身体劳损。

交互时间中更有趣的部分是认知部分。这是行动之间的停顿——“思考时间”。在这短暂的瞬间，专家正在感知算法的建议，判断其正确性，寻找错误，并计划下一个纠正措施。这种决策的复杂性可以通过Hick-Hyman 定律的视角来理解，该定律将决策时间与可用选择的数量联系起来。我们可以通过跟踪点击间隔时间、将“撤销”操作计为-human-machine 冲突的时刻，甚至观察用户光标悬停的位置作为感知审查的指标，来不引人注意地测量这种认知负荷。

最值得注意的是，我们可以在不知道最终正确答案的情况下，窥探一次交互是否“好”。我们可以通过观察机器自身的“心智状态”来做到这一点。一个智能分割算法不仅仅生成一个二值掩模；它首先计算一个概率图，其中每个像素的值在0到1之间，代表其属于肿瘤的可能性。这个图的总“不确定性”可以用香农熵来量化。一次成功的用户交互——一次精准的点击或涂鸦——为算法提供了关键的新信息。这些新信息应该会使算法的不确定性下降。通过监测每次用户操作后熵的变化，我们在某种意义上是在实时观察机器从其人类伙伴那里学习的过程。

关于不确定性的确定性

这把我们带到了最后一个统一的主题：不确定性。我们从偶然不确定性开始，即数据中不可简化的迷雾。但自动化和半自动化模型引入了第二种根本不同的不确定性：认知不确定性（epistemic uncertainty）。这是模型自身的自我怀疑，它的“我不知道”，源于其训练和知识的局限性。一个用数千个例子训练出来的深度学习模型，当它看到一个与它之前见过的肿瘤完全相同时，可能会非常自信。但当面对一个罕见或不寻常的案例时，它可能会变得不确定。这可以通过像蒙特卡洛 dropout 这样的技术来揭示，即多次运行模型会产生各种不同的答案，从而暴露模型自身的内部分歧。

与偶然不确定性不同，认知不确定性是可以减少的。当我们为模型提供更多数据和更好的先验知识（如形状约束）时，它的知识会增长，不确定性会缩小。现代人工智能的圣杯不仅是提供一个答案，还要报告一个可靠的、关于其自身置信度的度量。

这种对变异性和不确定性的复杂理解不仅仅是一项学术活动；它是现代医学科学的基石。为了验证一个可能决定患者癌症治疗方案的新生物标志物，我们不能依赖于单个专家的一次测量。相反，我们设计了严谨的多阅读者、多病例 (MRMC) 临床试验。在这些研究中，多位阅读者对多个病例进行分割，并使用先进的统计模型来分解最终生物标志物的总变异。他们细致地将“真实”的生物信号（患者之间的差异）与所有“噪声”成分分离开来：不同阅读者的系统性偏倚、交互的随机误差以及不可简化的偶然噪声。这使我们能够计算像组内相关系数 (ICC) 这样的指标，它正式地衡量了生物标志物的可靠性——其值中信号与噪声的比例是多少。

从描绘一条线的简单、主观行为出发，我们经历了优化理论、人机交互和信息论的旅程，最终抵达了临床试验的严谨统计框架。这段旅程揭示了一个美丽的统一：追求可靠测量的过程，就是理解、量化并最终驾驭各种形式的不确定性的过程。

应用与跨学科联系

在经历了手动分割的原理之旅后，我们可能会倾向于将其视为一种简单、近乎原始的行为：一位专家，凭借稳定的手和敏锐的眼，在图像上勾画出边界。这相当于艺术家素描的数字版本，捕捉了形态的精髓。但如果止步于此，我们将错过真实的故事。在现代科学和工程中，这个看似简单的行为扮演着既深刻又出乎意料的多面角色。它不仅仅是分析的工具，更是创建和验证那些旨在取代它的自动化系统的基石。它是不可或缺的老师，是严厉的考官，也是最终的、尽管不完美的基准。

不可或缺的基准：创造“基准真相”

想象一下，你想构建一个能通过医学扫描诊断疾病的人工智能。人工智能如何学习肿瘤的样子？你不能只给它一本教科书。你必须展示给它看。这是21世纪手动分割最关键的角色：创造用于训练和测试自动化算法的“基准真相”数据。

例如，在复杂的手术规划世界中，一位准备进行精细鼻窦手术的外科医生必须识别微小、多变的解剖结构，如 Onodi 气房，其与视神经和颈动脉的邻近性使手术成为一项高风险任务。一个能够从CT扫描中分割出这个气房的自动化系统将是无价的。但要构建它，开发者首先需要一个CT扫描库，其中人类专家已经 painstakingly 勾画出了 Onodi 气房。这种专家手动标注成为金标准，即“正确答案”，算法的性能将对照它来评判，通常使用 Dice 相似系数等指标来量化重叠程度（）。

这一原则贯穿于广阔的医学领域。在计算病理学中，一个旨在通过识别活检切片中性粒细胞簇来发现炎症性肠病的算法，首先是通过学习病理学家手动标记的“簇”的例子来了解什么是“簇”（[@problem id:4328136]）。类似地，一个用于发现黑色素细胞巢（黑色素瘤的前兆）的算法，通过将其输出与组织病理学家绘制的精细轮廓进行逐像素比较来进行磨练和验证（[@problem id:4403891]）。

“分割”的概念不仅限于视觉图像。它根本上是关于划分数据，关于绘制区分有意义信号与背景的边界。考虑一下繁忙的免疫学世界，研究人员使用高维细胞术根据细胞表面的蛋白质来计数和分类数百万个单个细胞。“圈门”（gating）——在多维散点图中围绕细胞群绘制边界——是一种分割形式。在这里，“手动专家圈门”作为参考标准。一个自动化圈门算法的成功与否，取决于其分类结果与专家决策的吻合程度，这通常通过一个包含真阳性、假阳性等类别的混淆矩阵来量化，并由此衍生出敏感性和特异性等指标（）。

这个想法甚至延伸到了生命自身的基础库。UniProt 知识库是一个关于蛋白质信息的庞大 repository。它分为两部分：一个巨大的、自动生成的部分（TrEMBL）和一个较小的、经过精心策划的部分（Swiss-Prot）。Swiss-Prot 数据库是在智力层面上“手动分割”的产物。人类专家阅读科学论文，为每个蛋白质条目 painstakingly 提取和验证功能信息。这个手动策划的数据库成为“金标准”参考，是质量的基准，也是训练自动化工具的可靠标签来源，这些工具用于注释其余的蛋白质组（）。在从手术室到基因组库的每一个领域中，手动分割都提供了使自动化成为可能的基本基准真相。

人为因素的挑战：变异性与偏倚

在这里，我们的故事发生了有趣的转折。我们称手动标注为“金标准”，但它真的是由纯粹无暇的黄金制成的吗？当两位世界级的专家看同一张图片时会发生什么？他们画出的线完全相同吗？

答案，无一例外，是否定的。这就是观察者间差异（IOV）的挑战。每位专家，由于其独特的训练和感知，都会引入少量的变异。在放射组学中，从医学图像中提取特征来预测患者预后，这种变异性可能是一个严重的问题。半自动系统的目标通常不仅仅是更快，而是更一致——即，在不引入新的系统性错误或偏倚的情况下，减少不同用户之间测量的方差（）。

这一认识提升了我们的思维。我们从简单地将手动分割用作固定基准，转向对其固有不确定性进行建模。在一个杰出的统计推理应用中，我们可以将人类专家不视为真理的神谕，而是视为一个带有其自身特有误差的精密测量设备。想象一下，我们既有手动专家勾画的患者盆底解剖结构测量值，也有AI辅助工具的测量值。通过分析每种方法的方差，以及至关重要的，它们之间的协方差，我们可以在数学上解开不同误差的来源。我们可以估计由人类随机误差引起的方差（ $\sigma_{H}^{2}$ ），由AI随机误差引起的方差（ $\sigma_{A}^{2}$ ），以及人群中潜在的真实生物学方差（ $\sigma_{T}^{2}$ ）。这使我们能够提出一个更精确的问题：与人类相比，AI将随机测量误差减少了多少？（）。

这引导我们走向该领域的前沿。如果每个专家都是有噪声的，并且没有单一的手动标注是完美的真理，我们如何才能创造一个更好的基准？答案不是信任一位专家，而是明智地结合多位专家的智慧。在正畸学领域，精确地在X光片上定位头影测量标志点对于诊断和机器人手术规划至关重要。一种更严谨的方法不是宣布某位专家的标注为“真理”，而是收集多位专家的标注。然后我们可以建立一个统计模型，该模型考虑了每位专家的个人系统性偏倚（例如，倾向于将一个标志点始终放置得稍高）和他们的随机噪声。从这个模型中，我们可以计算出“潜在真相”的估计值——一个在统计上比任何单个专家的标注都更可能正确的位置。这个潜在真相随后成为一个更优越、更稳健的金标准，用于评估AI标志点定位系统的性能（）。

从抽象线条到具体后果

对误差和变异性的深入探讨绝不仅仅是学术活动。分割的准确性，无论是手动的还是自动的，都具有深远的现实世界后果。

在癌症放射治疗中，治疗计划旨在将高剂量辐射输送到分割出的肿瘤体积内，同时保护周围的健康组织。剂量在目标边缘急剧下降，这个区域称为半影区。勾画肿瘤边界时的一个小误差——仅仅几毫米——就可能意味着一部分肿瘤接受了亚致死剂量的辐射，或者健康组织受到了不必要的损伤。通过对边界误差（用 Hausdorff 距离等指标测量）与由此产生的剂量不足之间的关系进行建模，机构可以为其分割工作流程设定明确的容忍限度，从而将一条抽象绘制线条的质量与患者的具体临床结果直接联系起来（）。

对超越人类水平分割的追求也是科学发现的强大引擎。在神经科学中，要理解庞大的神经元网络如何计算，需要观察单个细胞的活动。当神经元密集排列时，它们的信号在钙成像视频中可能會重疊，使得人類無法可靠地手動分割它們。简单的阈值处理方法只会将它们融合成一个难以辨认的团块。能够从计算上“解混”这些重叠信号的先进、基于模型的算法的开发，不仅仅是增量改进；它是一项突破，为我们窥探大脑运作方式打开了一扇新的窗户（）。

共生伙伴关系

那么，这一切让手动分割这一谦逊的行为何去何从？它不是一件等待被存档的过时工艺，而是在与自动化的共生关系中一个充满活力的重要伙伴。手动标注提供了知识的最初火花，即算法学习所依据的基准真相。然后，它成为验证这些算法的严格标准，推动它们走向更高的准确性和可靠性。在一个美丽的、自反的循环中，对自动化及其误差的科学研究迫使我们更批判性地审视人类专业知识本身的性质，从而催生出更复杂的统计模型， refining我们对“真理”的定义。专家的手与算法的逻辑，远非对立，而是紧密地 locked in a collaborative dance，共同推动科学前进。