相机标定

玻尔百科

定义

相机标定是确定相机几何与光学参数的过程，旨在将二维图像坐标准确转换为三维度量信息。该方法通过对已知标定物进行成像，利用优化算法求解相机的内参、外参及镜头畸变参数。消除镜头畸变对于医疗影像、机器人视觉伺服以及三维重建等需要精确测量的应用领域至关重要。

核心要点

相机标定是寻找相机的几何和光学参数，以便将二维图像转换为精确的三维度量信息的过程。
该方法涉及对一个已知物体（标定目标）进行成像，通过优化过程求解相机的内参、外参和镜头畸变参数。
在医学和法医学等科学应用领域，校正镜头畸变至关重要，以防止测量误差。
一个经过标定的相机系统能够支持先进技术，包括三维重建、机器人视觉伺服以及外科手术中的增强现实。

引言

相机捕捉了我们世界丰富的视觉表象，但这种图像仅仅是三维现实的一个平面的、且常常是扭曲的投影。对于日常摄影而言，这种区别无关紧要，但对于科学、工程和医学领域，它提出了一个根本性挑战：我们如何将一张简单的图片转化为可靠的度量数据来源？答案就在于相机标定这门严谨的科学，它是释放相机作为精密测量设备潜力的关键过程。如果对相机的独特几何结构和光学缺陷没有数学上的理解，那么从图像中获取的尺寸、距离或形状的测量结果往好了说也是不可靠的。这种知识鸿沟阻碍了相机在机器人手术、法医分析等对精度要求至关重要的应用中的使用。

本文为弥合这一鸿沟提供了全面的指南。在第一部分“原理与机制”中，我们将深入探讨理想针孔相机的基本几何原理，为现实世界中镜头的物理缺陷建模，并探索用于寻找相机真实参数的强大优化技术。随后，在“应用与跨学科联系”部分，我们将看到这些理论在实践中的应用，探索经过标定的相机如何彻底改变遥感、自动导航和医疗诊断等多样化领域，将光线转化为可量化的洞见。

原理与机制

想象一下，你正透过一扇窗户看世界。那扇窗户就是你的相机镜头。它向你展示了一幅美丽而丰富的现实图景，但这只是现实的一个扁平化且常常有些扭曲的版本。对物理学家或工程师来说，相机不仅仅是拍照的工具，它还是一种潜在的科学仪器，一种测量世界的设备。而相机标定的宏大挑战和核心主题，就是去精确地理解那扇窗户的几何结构，从而能将扁平、扭曲的图像转换回忠实的三维现实度量地图。这是一门将简单的拍照工具转变为精密测量设备的艺术。

完美的窗口：理想相机的几何学

让我们从一个极其简单的模型开始：针孔相机。想象一个暗箱，一侧有一个小孔，相对的内壁上装有胶片或传感器。来自世界中某个物体的光线沿直线穿过针孔并投射到传感器上。值得注意的是，物体上的任意一点、针孔本身以及该点在传感器上的成像点，都位于同一条直线上。这就是基本的共线性原理，一个优美的几何真理，构成了相机几何学的基石。

然而，这个模型并没有告诉我们相机在哪里，或者它是如何朝向的。为了将我们的相机置于世界中，我们需要描述它的位姿。这通过外参来完成：一个确定相机位置的平移向量和一个描述其朝向的旋转矩阵。可以把它想象成给你的相机提供 GPS 坐标和罗盘朝向。

接下来，我们必须描述相机的内部构造。这些是内参。最重要的是焦距，在我们的针孔模型中，它是从针孔到传感器平面的距离。更长的焦距就像变焦镜头，放大了场景的中心。另一个关键的内参是主点，即光轴（穿过镜头中心的光线）落在传感器上的那个像素点。它是相机视觉的真正“中心”，而这个中心可能并非图像传感器的几何中心。

本质上，标定就是寻找这两组参数的探索过程：将相机置于世界中的外参，以及定义其内部几何结构的内参。一旦我们知道了它们，我们就拥有了对理想针孔相机的完美数学描述。

不完美的镜头与对完美的追求

当然，现实中的相机不使用微小的针孔，而是使用镜头。而镜头作为由曲面玻璃制成的物理物体，并非完美。它们以引入镜头畸变、扭曲图像的方式折射光线。最常见的类型是径向畸变，它导致图像边缘附近的直线看起来是弯曲的，就像透过酒杯底部看东西一样。这种效应随着远离图像中心而急剧增加。

对于休闲摄影，这种畸变通常不易察觉。但对于科学应用，它是一个关键的误差来源。想象一位医生使用视频系统测量眼球运动（视频眼震电图）。如果系统没有经过畸变校正，一个匀速的眼球运动在摄像机视野中移动时，可能会显得加速或减速，这可能导致误诊。同样，在法医学中，一张畸变的图像可能导致对犯罪现场的测量不准确。

标定的美妙之处在于，我们可以用数学方法来为这些物理缺陷建模。我们可以找到一组畸变参数（如用于径向畸变的系数 $k_1, k_2, \dots$ ），它们精确地描述了镜头如何扭曲图像。一旦我们拥有了这些参数，我们就可以编写一种“数字解药”——一种能够逆转畸变的算法，将扭曲的图像转换为我们的理想针孔相机会看到的原始、无畸变的图像。

我们如何找到未知量？

那么，我们如何揭示所有这些秘密参数——内参、外参和畸变系数呢？我们不能简单地拆开相机用尺子测量它们。相反，我们采用一种巧妙的间接策略：我们向相机展示一个我们已经完全了解其几何形状的物体。

这个物体是一个标定目标，通常是简单的棋盘格图案。我们知道棋盘上每个角点的精确三维坐标。然后，我们从不同角度拍摄这个目标的一张或多张照片。对于每张图像，我们找到已知三维角点的二维像素坐标。这就给了我们一组已知的“三维到二维”的对应关系。

这个难题在计算机视觉中被称为 PnP 问题（Perspective-n-Point）：给定一组 $n$ 个已知三维点及其对应的二维图像投影，找到能够解释这种映射关系的相机位姿和内参。

但是这个问题真的能解决吗？对自由度的一点点推理可以告诉我们答案。我们相机的位姿有 6 个未知数（3 个用于旋转，3 个用于平移）。内参至少再增加一个（焦距），总共至少有 7 个未知数。每个三维到二维的点对应关系为我们提供了两个约束（ $u$ 和 $v$ 坐标）。因此，我们至少需要 4 个点才能获得足够的方程（ $4 \times 2 = 8 \ge 7$ ）。

然而，这些点的几何分布至关重要。如果我们所有已知的点都位于同一个平面上（比如单张棋盘格的视图），就会出现一个微妙的模糊性。可能存在多个不同的相机位姿，它们能产生完全相同的图像！为了得到一个单一、稳定、唯一的解，我们必须使用非共面的点，或者使用平面目标物的多个视图。这打破了模糊性并锁定了真实的几何结构。例如，著名的 Perspective-3-Point 问题对于相机位姿有多达四种可能的解，这可以通过增加第四个点或使用物理约束（比如物体必须在相机前面）来解决。

作为优化杰作的标定

在现实世界中，我们的测量永远不会是完美的。检测到的棋盘格角点的像素坐标会有一些微小的误差。由于这种噪声的存在，没有哪一组相机参数能够同时完美地解释所有的三维到二维对应关系。

这就把我们的几何难题变成了一个宏大的优化问题。目标是找到使总误差最小化的那组参数。我们定义一个成本函数，通常是重投影误差的平方和。对于每个已知的三维点，我们使用当前估计的相机参数将其投影到图像中。重投影误差就是这个预测的二维点与我们实际测量的二维点之间的距离。然后，我们使用强大的数值算法来调整相机参数，迭代地将它们朝着减小总误差的方向微调，直到误差尽可能小。

当这个过程同时应用于许多相机和许多三维点时，它被称为光束法平差（bundle adjustment）。这是一个巨大的优化过程，它同时优化所有参数，以找到一个全局一致的解。执行这种最小化的算法，例如高斯-牛顿法，必须谨慎选择。如果相机几何结构很弱（例如，相机在两次拍摄之间移动很小），天真地求解其基础方程（“正规方程”）在数值上可能是不稳定的。使用 QR 分解或奇异值分解 (SVD) 的复杂技术则更受青睐，因为它们远为稳健，通过避免“对问题的条件数进行平方”来规避数值陷阱——这是一个数学上的精妙之处，它可能决定了结果是稳定解还是数值混乱。

收获：一个被测量的世界

一旦相机系统被标定，它就成为一个真正的科学仪器，能够进行精确的三维测量。

通过两个或更多经过标定的相机观察同一场景，我们可以进行立体重建。通过在两个图像中识别同一点，我们可以将两条对应的光线追溯回场景中。该点的三维位置就是这两条光线相交的地方——这个过程称为三角测量。

但这些测量的准确度如何？答案揭示了一些深刻的几何真理。对于一个典型的立体设置，两个相机相隔基线 $B$ ，重建深度 $Z$ 的不确定度与距离的平方成正比： $\sigma_Z \propto \frac{Z^2}{B}$ 。这意味着，如果你到物体的距离加倍，你的深度测量误差将增加四倍！为了抵消这一点，你需要增加基线（将相机分得更开）或使用更长的焦距。这种关系是立体视觉精度的基本限制。

此外，不同来源的误差以不同的方式产生影响。测量的像素位置的不确定性是一回事，但标定参数本身的不确定性也会传播到最终的三维结果中。例如，估计的镜头畸变系数 $k_1$ 的误差会产生一个三维误差，该误差随距图像中心距离的三次方 ( $r^3$ ) 增长——这是一个强大的非线性效应。焦距的一个小不确定度 $\sigma_f$ 会转化为深度不确定度，大约为 $\sigma_Z \approx (B/d) \sigma_f$ ，其中 $d$ 是测量的像素视差。

这给我们带来了最后一个关键的区别。有些误差是偶然误差（aleatory），意味着它们是随机的、过程固有的，比如运动员皮肤上运动捕捉标记的轻微抖动。其他误差是认知误差（epistemic），意味着它们源于知识的缺乏，比如我们相机标定中一个固定但未知的误差。如果我们对运动员的运动进行多次试验测量，我们可以通过平均结果来减少随机的偶然误差。然而，由我们有缺陷的标定引起的系统的、认知性的误差将会保留下来。它是一种无法通过平均来消除的恒定偏差。消除它的唯一方法是增进我们的知识——也就是说，进行一次更好的标定。

最终，标定是所有定量计算机视觉赖以建立的基础。它是连接我们抽象的几何模型与那个混乱、充满噪声但又可以美妙测量的物理世界的关键步骤。它是几何学、优化和统计学的美妙结合，让我们不仅能看到图像，还能看到三维的、可度量的现实。

应用与跨学科联系

在了解了相机标定的原理之后，我们可能觉得已经牢牢掌握了其数学机制——针孔模型、内参矩阵、旋转和平移。但这项科学真正的魔力、真正的美，并不在于方程本身，而在于这些方程让我们能够做什么。标定一台相机，就是把它从一个简单的拍照工具转变为一个精密的科学仪器，一个能够窥探我们世界内部运作的可靠测量设备。没有标定，相机给我们的是一张漂亮但失真的明信片；有了标定，我们得到的是一张现实的蓝图。

让我们来探索一下相机标定作为幕后英雄的广阔且常常令人惊讶的应用领域，它是使发现和创新成为可能的关键第一步。

从像素到现实：度量测量的力量

在最基本的层面上，标定赋予了像素意义。它提供了那把“尺子”，让我们能够直接从图像中测量真实世界的距离、尺寸和形状。在标定之前，一张图像就像一张没有比例尺的地图——它显示了事物的相对排列，但我们无法分辨看到的是一座城市还是一个电路板。标定之后，每个像素都有了一条可追溯至物理维度的“监管链”。

在那些客观、可重复测量至关重要的领域，这种力量尤为关键。思考一下医学和法律界。在一个追踪潜在癌变口腔病变进展的诊所里，数月间拍摄的一系列照片必须具有定量可比性。病变是否在增长？它的颜色是否在变化？回答这些问题需要一个严格的协议，其中相机的几何结构和色彩响应都受到精心的控制。这包括以保留原始传感器数据的方式捕捉图像，使用标准化的照明，并在病变所在的平面上直接放置一个已知尺寸的比例尺。只有这样，医生才能自信地区分真实的生物学变化和因摄影不一致造成的简单假象。

同样的严谨性也适用于法医学。一张皮肤上咬痕的照片不仅仅是一幅插图；它是一件可能在法庭上呈现的证据。为了使其可被采纳，从该照片中进行的任何测量——例如犬齿印之间的距离——都必须被证明是准确的。这需要一份完整的采集元数据记录：相机的镜头和传感器属性、其精确的朝向、精确的照明条件，以及至关重要的、对导致图像边缘直线弯曲的镜头畸变的校正。没有这套完整的标定流程，一次测量仅仅是一种观点；有了它，测量就变成了科学事实。

现在，让我们把视野从人体尺度扩大到地球本身。当一架飞机执行测绘任务时，它的相机不断地拍摄地面。我们如何将这些图像拼接成一幅无缝的地图？更重要的是，我们如何知道显示某个房屋或树木的像素的确切地理坐标？这就是地理配准的挑战，它也是一个宏大的标定问题。

在这种情况下，“相机”是一个完整的系统：光学设备、由 GNSS（如 GPS）确定的其位置，以及由惯性导航系统 (INS) 测量的其姿态——即它的横滚、俯仰和偏航。地面上一个点定位的总误差是所有这些来源不确定性的复杂交织。飞机高度几厘米的误差，或其俯仰角百分之一度的误差，都可能使计算出的地面位置偏移数米，尤其是当相机向侧方（离天底）看时。通过建立一个详细的误差预算，遥感科学家可以理解相机焦距、飞机姿态、甚至地形高程模型本身的不确定性是如何共同影响最终精度的。这使他们不仅能知道地图上每一点的位置，还能知道他们对这个位置的确信程度。

构建三维世界：从图像到几何

如果说一台经过标定的相机像一把尺子，那么两台或更多台就构成了一台三维扫描仪。这就是立体视觉的原理，与你双眼感知深度的技巧相同。如果两台经过标定的相机从略微不同的位置观察同一物体，我们可以从每台相机的“眼睛”追踪光线到物体上的一个点。这两条光线的交点揭示了该点的精确三维位置。这个过程称为三角测量，是三维重建的基础。

这项技术正在彻底改变医学。想象一位牙医需要一个完美的患者牙齿三维模型来设计牙冠。现代的口内扫描仪可能结合了两个微型立体相机和一个微型投影仪，后者将结构光图案投射到牙齿表面。相机观察这个已知图案如何在复杂的几何形状上变形。为了将来自立体相机和结构光的信息融合成一个单一、度量精确的三维点云，每个组件都必须相对于其他所有组件进行精细的标定——两台相机的内参、投影仪的“内参”（可被视为一个反向相机），以及所有三者之间精确的外参旋转和平移。没有这个，重建出的三维模型将是一个扭曲无用的混乱体。

这种多传感器标定的挑战是技术领域的一个主要前沿，其范围远超牙科。在我们的街道上导航的自动驾驶汽车依赖于一整套不同的传感器——相机、LiDAR（用激光脉冲测量距离）和雷达。为了理解世界，汽车的大脑必须确切地知道每个传感器的数据如何相互关联。相机看到的一团像素，LiDAR 可能看作一团三维点云。标定相机和 LiDAR 之间的外参变换——即找到对齐它们坐标系的精确旋转和平移——是一个出了名的困难优化问题，常常有许多“假”解（局部最小值），可能会困住一个简单的算法。解决它需要复杂的全局搜索技术，将传感器融合变成了一场在复杂数学景观中的迷人寻宝游戏。

引导机器：机器人学与增强现实

一旦机器能够建立世界的三维模型，下一步就是与那个世界互动。相机标定是让机器人能够看、理解和行动的桥梁。

在机器人手术领域，这种连接事关生死。在外科机器人开始移动之前，它自己的坐标系必须与患者的身体精确对齐。这个“对接”过程涉及一系列变换：从机器人的移动推车，到患者的身体（由穿过皮肤的端口定义），再到作为外科医生眼睛的内窥镜相机。这些对齐步骤中的每一步都是一种外参标定，并且每一个都有相关的不确定性。一个笨拙的标定序列会导致误差累积，造成医生认为器械所在的位置与其实际位置之间的危险不匹配。然而，一个精心设计的协议通过在最关键的坐标系——相机、器械和患者——之间建立直接、稳健的标定链接，来最小化这种复合误差。

有了这种视觉与行动之间的标定链接，机器人可以完成令人难以置信的灵巧壮举。这就是视觉伺服的领域，机器人的运动由其相机所见的紧密反馈回路引导。想象一个机器人被派往在核聚变反应堆的强辐射环境中进行精细的焊接修复。机器人必须将其工具对准组件上的一个微小焊缝。通过在其标定的相机视图中跟踪焊缝的视觉特征，机器人可以计算出将工具引导到位的精确速度指令，每秒校正其路径数十次。这将相机变成了机器人神经系统的一个活跃部分。

标定还使我们能够增强人类视觉，给我们带来外科手术的“X光眼镜”。在癌症手术中，外科医生可能会注射一种荧光染料，使淋巴结在近红外 (NIR) 光下发光。一种特殊的多模态内窥镜可以同时看到可见光和近红外光，系统可以将不可见的荧光叠加到外科医生的正常视野上。但这里存在一个微妙的危险：视差。可见光和近红外传感器并非位于完全相同的位置，这会产生微小的差异，就像用一只眼看物体然后再换另一只眼一样。这会导致叠加图像根据组织的远近而移动。如果叠加图像错位，外科医生可能会切除健康的组织或错过癌变的淋巴结。解决方案是进行艰苦的多模态标定，在整个工作空间内将近红外传感器的几何结构映射到可见光立体相机。只有这样才能确保增强现实的叠加与物理现实完美配准，将一个巧妙的技巧转变为一个拯救生命的工具 [@problem-id:4400558]。

超越几何：测量不可见之物

虽然我们一直专注于测量空间，但经过标定的相机的能力延伸到了测量其他物理量。毕竟，相机本质上是一个光度计——或者说，是数百万个排列成网格的微型光度计。如果我们能够在照射到像素的光强度与产生它的物理过程之间建立可靠的关系，我们就可以测量远不止几何形状的东西。这就是辐射度量学领域。

考虑一个研究喷雾冷却的实验，这是一种用于管理高性能电子设备中极端热量的技术。一位工程师想要测量传热系数 $h$ ，它描述了喷雾从表面带走热量的效率。这需要知道精确的表面温度 $T_s$ 。红外 (IR) 相机可以无接触地测量这一点，但它不直接看到温度；它看到的是红外辐射。辐射量不仅取决于温度，还取决于表面的发射率 ( $\varepsilon$ ) 和周围环境的反射。相机自身的内部电子器件具有特定的增益和偏移，将辐射转换为数字信号。一次完整的不确定性分析揭示，传热系数的最终误差是所有这些参数不确定性的复杂传播：表面发射率、实验室温度以及红外相机本身的标定常数。几何标定告诉机器人去哪里；辐射标定告诉科学家发生了什么。

这种将图像转化为定量数据场的能力是现代实验力学的基础。使用一种称为数字图像相关 (DIC) 的技术，研究人员可以测量整个表面在负载下的应变——即材料的微小变形。例如，通过追踪骨骼样本上随机散斑图案的移动，一个经过标定的立体相机系统可以生成全场应变图，揭示应力如何在植入物周围流动，并帮助设计出更耐用、更少失效的医疗设备。从人体关节的瞬时旋转中心 (ICR) 到桥梁中的应力，经过标定的成像使我们能够可视化和量化那个由力和变形构成的不可见世界。

从法庭到手术室，从微观到行星尺度，相机标定是那个关键的、常常是隐藏的要素。它是一个纪律框架，让我们能够相信我们所看到的，将光线转化为洞见，并将一台简单的相机转变为科学和技术的强大引擎。