机载激光扫描

玻尔百科

定义

机载激光扫描是一种通过测量激光脉冲往返时间来获取距离的主动遥感技术，是激光雷达（LiDAR）技术的核心。该系统通过结合激光测距数据、全球导航卫星系统（GNSS）的位置信息以及惯性测量单元（IMU）的姿态信息，生成高精度的三维点云。这项技术被广泛应用于林业、城市规划及地形建模等领域，能够提取数字地面模型和植被结构等关键地理空间数据。

核心要点

机载激光扫描（ALS）是一种主动传感方法，通过计时激光脉冲的往返行程来测量距离，构成了激光雷达（LiDAR）技术的基础。
激光雷达地理配准方程将激光测距数据与飞机的位置（来自GNSS）和姿态（来自IMU）相结合，以创建精确的三维点云。
关键的系统设计选择，如激光波长和脉冲频率，是决定数据是否适用于林业或水深测量等应用的关键权衡。
通过对点云进行分类，我们可以生成关键的数据产品，如数字地形模型（裸地）和冠层高度模型（植被高度），从而实现多样化的应用。
ALS通过提供详细的三维结构数据，彻底改变了众多领域，使得研究森林生态系统、城市环境和景观随时间变化成为可能。

引言

在一个数据驱动发现的时代，我们以三维方式精确绘制世界地图的能力已变得至关重要。传统摄影以平面图像捕捉世界，但往往无法揭示隐藏在森林冠层之下的复杂垂直结构或城市的精确地形。这一局限性凸显了我们观测能力上的一个根本性差距。机载激光扫描（ALS），或称激光雷达（LiDAR），作为一项革命性技术应运而生，填补了这一空白。它超越了被动观测，主动利用光脉冲测量地景。本文将对这一强大方法进行全面探索。第一章“原理与机制”将揭开这项技术的神秘面纱，解析简单的时间测量如何转变为精确的三维坐标，并探讨决定我们观测能力的工程选择。随后的“应用与跨学科联系”一章将展示ALS的变革性影响，带领我们从绘制隐蔽的河床，到量化整片森林，再到训练人工智能感知我们这个复杂的世界。

原理与机制

要真正领略机载激光扫描的力量，我们必须踏上一段旅程，从一个简单、近乎童稚的问题开始：那个东西有多远？几个世纪以来，我们通过观察、利用太阳提供的环境光来回答这个问题。这就是被动传感的世界——摄影和我们肉眼所处的世界。但如果我们感兴趣的物体，比如林地地面，被茂密冠层的浓荫所笼罩，该怎么办？如果我们需要在夜间绘制世界地图，又该怎么办？在这些情况下，仅仅依赖太阳是不够的。我们受限于恰好到达传感器的微弱散射光，这个信号常常淹没在大气噪声和来自更明亮邻近物体的反射中。

为了克服这一点，我们必须掌握主动权，必须自己成为光源。这就是主动传感的精髓。我们不再被动地聆听，而是主动地向虚空“呐喊”并等待回声。对于机载激光扫描而言，我们的“呐喊”是一束极其短暂而明亮的激光脉冲。

与光的对话：核心思想

想象一下，你正站在一个大峡谷的边缘。你拍拍手，然后等待。片刻之后，你听到了回声。如果你知道声速，并测出了延迟时间，你就能计算出到峡谷对岸岩壁的距离。LiDAR，即光探测和测距（Light Detection and Ranging），正是基于完全相同的原理，但有两个关键区别：它使用光而不是声音，并且它以惊人的精度测量时间。

激光脉冲从飞机传播到地面上的一个目标——可能是一棵树的树梢或一小块土地——其光的一小部分直接反射回飞机上的探测器。系统记录下总的往返传播时间，我们称之为 $\Delta t$ 。因为我们知道光速 $c$ 这个普适的自然常数，所以单程距离，即距离（ $R$ ），可以简单地表示为：

R = \frac{c \cdot \Delta t}{2}

当然，这里的因子 $2$ 是因为我们测量的时间是往返的时间。这个优美而简单的方程是地球上乃至其他行星上每一个LiDAR系统跳动的心脏。这是一次根本性的交换：我们用时间的测量换取了距离的测量。

从单点到三维世界：激光雷达方程

知道到单个点的距离很有用，但我们的目标是描绘出整个世界的三维图像。为此，我们不仅需要知道到该点的距离，还需要知道我们发射激光脉冲的方向。这是通过一个快速旋转或摆动的反射镜实现的，它使激光束在地面景观上来回扫描。在任何给定的瞬间，系统都知道反射镜的朝向，通常表示为方位角和高程角（ $\theta$ 和 $\phi$ ）。

现在我们可以描述被击中点的位置，但这只是从传感器自身的视角来看。在传感器自己的私有坐标系（我们称之为坐标系 $S$ ）中，该点的位置是一个向量 $\mathbf{r}_s$ ，其长度为距离 $R$ ，其方向由扫描角度决定。

真正的魔法就发生在这里。传感器并非静止不动，它安装在一架以每小时数百公里速度飞行的飞机上。为了赋予我们的点一个在地球上有意义的地址，我们必须在激光脉冲发射的精确瞬间，知道飞机的精确位置和姿态。这是由两个辅助仪器完成的：

全球导航卫星系统（GNSS）接收器（如GPS）告诉我们飞机在地球上的位置，我们可以在一个全局导航坐标系 $N$ 中称之为 $\mathbf{P}_N$ 。
惯性测量单元（IMU），一个由陀螺仪和加速度计组成的复杂集合，以每秒数千次的频率测量飞机的姿态——即其横滚、俯仰和偏航。这为我们提供了旋转矩阵 $\mathbf{R}_{NB}$ ，它将方向从飞机机身坐标系（ $B$ ）转换到导航坐标系（ $N$ ）。

最后一步是一系列的几何变换，一段将我们测量的点从传感器坐标系一直转换到全球地图的旅程。这就像给某人指路：“从扫描仪的原点出发，沿着激光束方向前进距离 $R$ 。然后，从飞机的重心出发，到达扫描仪的原点（这是杠杆臂， $\mathbf{t}_{BS}$ ）。接着，将整个图像旋转以与飞机机身对齐（这是瞄准轴校准， $\mathbf{R}_{BS}$ ）。最后，将该结果根据飞机在空中的倾斜姿态进行旋转（ $\mathbf{R}_{NB}$ ），并将其加到飞机的全局位置（ $\mathbf{P}_N$ ）上。”

这整个操作链被优雅地总结在一个看起来令人生畏的表达式中，即激光雷达地理配准方程：

\mathbf{p}_N = \mathbf{P}_N + \mathbf{R}_{NB} \left( \mathbf{R}_{BS} \mathbf{r}_s + \mathbf{t}_{BS} \right)

虽然这个方程看起来复杂，但它不过是一个精确、分步的食谱，用于将数百万个测量点中的每一个都放置到地球地图上其正确的3D位置。当每秒对数十万个脉冲执行此操作时，一个“点云”便浮现出来——一个如幽灵般的地景三维复制品。

激光脉冲的特性：系统设计选择

并非所有的激光脉冲都是一样的。脉冲及其生成系统的具体特性对我们收集的数据有着深远的影响。设计一个LiDAR系统是一场由物理学决定的权衡博弈。

一个关键的权衡在于点的数量和每个点的能量。脉冲重复频率（PRF）是系统每秒发射的脉冲数。更高的PRF意味着地面上点的网格更密集。然而，激光器的平均功率是固定的，因此如果我们更频繁地发射脉冲，每个独立脉冲的能量就必须降低。较低的脉冲能量意味着返回信号较弱，这会降低系统可操作的最大高度，或者使其更难从深色、吸收性强的表面获得返回信号。

另一个关键属性是光束发散角。激光束并非无限细的线；它会随着距离而扩散。地面上被照亮的光斑直径，即足印，大约是距离与光束发散角的乘积（ $d \approx R\theta$ ）。小的发散角会产生小的足印，将激光能量集中在一个微小的点上。一个在 $1500$ 米高空飞行的机载系统可能具有 $0.5$ 毫弧度的发散角，从而产生 $75$ 厘米宽的足印。而像ICESat-2这样的卫星系统，在 $400$ 公里的轨道上运行，则需要一个仅为 $50$ 微弧度的极小发散角，才能在地球上实现一个可控的 $20$ 米足印。这个足印的大小不仅仅是一个技术细节；它决定了我们数据的空间分辨率，并对我们能“看到”什么产生重大影响，我们将在后文发现。

也许最有趣的设计选择是激光的波长，即颜色。这个选择完全取决于光与我们想要测绘的材料相互作用的物理学原理。

为了测绘森林，行业标准是使用近红外（NIR）波段的激光器，通常波长为 $1064$ 或 $1550$ 纳米。为什么？因为健康的植物叶片在进行光合作用时吸收可见光，但在近红外波段反射性极强。这提供了强烈的返回信号。
但如果你想测绘河床或海岸带（这种做法称为水深测量），近红外光就毫无用处了——它几乎立刻被水吸收。为此，你需要一个绿光激光器（约 $532$ nm），它正好落在光谱中水体最透明的狭窄窗口内。
这一选择对人眼安全也有关键影响。波长在 $400$ nm到 $1400$ nm之间的光，包括绿光和 $1064$ nm的近红外光，会被眼睛聚焦到视网膜上，即使在低功率下也很危险。而波长超过 $1400$ nm的光，如 $1550$ nm，在到达视网膜之前就被角膜和晶状体吸收，因此安全级别高出几个数量级，允许在人口密集区域进行更高功率的操作。

描绘地球：从点到面

LiDAR勘测的原始输出是一个庞大、无结构的点云。为了将其转化为有用的信息，我们需要对这些点进行分类。最基本的分类是将在地面上的点与在其上方的物体（如建筑物和植被）上的点分离开。算法通过在点的局部邻域内寻找最低、最连续的表面来执行此任务。

一旦完成此分类，我们就可以生成几种标准的、格网化的数据产品：

数字表面模型（DSM）： 这是所有物体“顶部”的表面。就好像你用一块巨大的布覆盖在整个景观上，覆盖了树木和建筑物的顶部。它通常通过取点云中每个格网单元内的最高高程值来创建。
数字地形模型（DTM 或 DEM）： 这是“裸地”模型。在这里，我们仅使用被分类为地面的点来插值出一个连续的表面，代表土地本身的地形，就好像所有的树木和建筑物都被神奇地移除了。
冠层高度模型（CHM）： 只需在每个格网单元上用DSM减去DTM（ $\text{CHM} = \text{DSM} - \text{DTM}$ ），我们就能得到一张地表以上物体高度的地图。对于森林而言，这是树高的直接度量，是生态学和林业中最重要的变量之一。

不完美的世界：误差与遮挡

一个真实的LiDAR系统是同步时钟、旋转镜面和灵敏电子设备在高速运动中错综复杂的舞蹈。它并非完美。系统中各组件微小、几乎无法察觉的误差，可能会在最终数据中表现为巨大的、系统性的模式。对于处理这些数据的科学家来说，这些模式是具有指示性的特征，就像犯罪现场留下的指纹。

例如，如果激光发射的时间戳与GPS/IMU时钟仅有几毫秒的不同步，一条航线中的所有点都会向前或向后移动。当比较两条在相反方向上飞行的重叠航线时，它们会显示出明显的剪切，这种不匹配与飞机的速度成正比。IMU横滚测量的恒定偏差将导致整条数据带向一侧倾斜。当与反向飞行的另一条带重叠时，倾斜方向相反，在差异中形成清晰的“一侧高，另一侧低”的模式。识别和校正这些系统误差是生产高质量数据的关键步骤。

除了仪器误差，还存在一个根本的物理限制：遮挡。在测绘森林时，上层冠层的树叶和树枝会投下“阴影”，阻止激光到达下层冠层和地面。脉冲穿透到某一深度的概率随着其在冠层中传播而大致呈指数下降。这意味着森林的下部被系统性地欠采样 [@problem-id:3812909]。这带来两个主要后果：首先，我们对叶密度的估计可能存在偏差，使我们认为森林比实际更“头重脚轻”。其次，如果到达地面的脉冲太少，我们的DTM可能会偏高，因为滤波算法可能会将低矮的树枝误认为是真实地表。正是在这里，系统设计选择，例如使用小足印激光来寻找冠层中的微小间隙，对于洞察森林的隐秘深处变得至关重要。

从一束简单的光脉冲和一次时钟的滴答声开始，一个充满复杂物理学和工程学的世界就此展开，使我们能够以前所未有的保真度来测量我们的星球。理解这些原理和机制，不仅是正确使用数据的关键，也是欣赏技术与自然世界之间这场深刻对话之美的关键。

应用与跨学科联系

在上一章中，我们拆解了机载激光扫描的机械构造。我们看到，一个简单而优雅的原理——光脉冲的往返旅程——如何被用来以惊人的精度测量世界。我们已经拥有了工具。现在，真正的冒险开始了。我们能用它来做什么？凭借这种以完整的三维荣耀而非扁平色彩描绘世界的新能力，我们能揭开什么秘密？

事实证明，答案几乎是无所不包。这项技术的应用跨越了科学学科的界限，创造了一种三维结构的共同语言，可以被生态学家、城市规划师、地质学家和计算机科学家共同理解。这是一段将我们从海岸海湾的隐秘深处带到雨林繁茂的冠层，从我们城市的混凝土峡谷带入人工智能核心的旅程。

建筑师的新工具箱：测量人造与自然世界

让我们从三维测量设备最直接的用途开始：测量三维物体。几个世纪以来，制图师们一直在努力绘制世界隐藏的地面——河流、湖泊和浅海的底部。众所周知，水对大多数形式的电磁辐射都是不透明的。但并非全部。在可见光谱中有一个狭窄的窗口，一种特定的蓝绿色光，水对光的吸收在此时达到最小值。工程师们，在一个为任务量身定制工具的优美范例中，设计了所谓的水深测量LiDAR系统来利用这个窗口。通过使用强大的绿光激光器，通常在 $532 \, \mathrm{nm}$ 左右，这些系统可以穿透水面并从水底返回信号。

当然，大自然从不提供免费的午餐。选择这种绿色波长是一个微妙的妥协。更短、更蓝的波长能更好地穿透最纯净的水，但它们在上下往返的途中会受到更严重的大气散射，这种现象被称为瑞利散射，其强度与波长的四次方成反比，即 $\lambda^{-4}$ 。更长、更红的波长在空气中表现更好，但一进入水中就立即被吸收。而正好处在这个最佳窗口中间的绿光激光器，构成了显著的人眼安全风险，需要精心的工程设计和操作控制才能使用。这场与物理学精妙博弈的结果，是能够创建陆海交界处的无缝地图，这对于从航海制图到研究海岸侵蚀等一切都至关重要。

从自然世界，我们转向我们自己的创造：城市。对城市进行一次机载LiDAR扫描，会产生一团惊人的点云，这是每一栋建筑、街道、汽车和树木的数字幽灵。对人类来说，这团云是一片抽象的混乱。但对计算机算法来说，它是一个几何信息的宝库。如何教机器识别一栋建筑？你要教它识别建筑师设计的基本形状。建筑物在很大程度上是由平面组成的——平坦的屋顶和垂直的墙壁。相比之下，树木是树枝和树叶的混乱杂合物，没有特定的方向。

通过分析一小片邻域的点，算法可以计算其局部几何形状。这些点是像一张平片、一条线还是一个散乱的球体那样排列的？计算机可以通过查看局部协方差矩阵的特征值来形式化这一点。屋顶上的一个点将属于一个邻域，其中两个特征值很大，一个非常小——这是平面的标志。它的表面法线，即垂直于该平面的方向，将笔直向上。外墙上的一个点也将属于一个平面，但其法线将是水平的。通过给机器这些简单的几何先验知识——即建筑物由垂直和水平平面构成——我们可以构建自动化系统，消化原始点云并输出一个城市中每栋建筑的干净、带标签的地图。这个过程，一种语义分割，对于城市规划、应急响应，甚至分析一个大都市中每个屋顶的太阳能电池板潜力都至关重要。

生态学家的空中之眼：量化生命世界

机载激光扫描在任何领域的影响都没有比在研究生命本身，特别是在我们森林广阔而复杂的生态系统中，来得更具革命性。我们第一次能够既见森林，又见树木。

气候科学中最受追捧的数字之一是世界森林的总生物量——即生命物质的总重量，因为这代表着一个巨大的碳储存库。你如何从飞机上称量一片森林？这似乎不可能。然而，借助LiDAR，我们可以通过遵循一个优美的逻辑链条来非常接近地实现这一点。关键在于，从LiDAR数据中导出的一个简单统计指标，如返回高度的第90百分位数（ $H_{90}$ ），可以作为森林冠层顶高的一个稳健代理。其物理原因植根于比尔-朗伯定律：当激光脉冲穿透冠层时，它们会被树叶拦截。返回光的垂直分布是累积叶面积的直接函数。因此，某个高度百分位数对应于某个冠层穿透水平。在类型相似的森林中，冠层的整体形状通常是自相似的，因此返回分布的百分位数与总高度成正比。

链条中的下一个环节是生态学的。森林科学告诉我们，在一个成熟、拥挤的森林中，优势树种的高度与其他结构特性，如总树干横截面积（断面积），有很强的相关性。最后，异速生长方程告诉我们，一棵树的体积乃至生物量是其高度和周长的可预测函数。通过将这些关系链接在一起——从LiDAR百分位数到林分高度，从林分高度到总体积，再从体积到生物量——我们可以创建几十年前无法想象的森林碳储量地图。

但LiDAR不仅仅能看到树梢。它的脉冲可以穿过树叶间的微小缝隙，为我们描绘出整个三维结构。我们可以将点云切分成三维像素（即“体素”）的网格，然后提问：森林在5米高度的植被密度是多少？10米呢？20米呢？这使我们能够创建森林的MRI，量化其多层结构。要正确地做到这一点需要一些巧思。必须考虑到上层冠层会投下“阴影”，遮挡下面的层次，而且激光脉冲的密度在整个勘测区域内并非均匀。通过模拟光的自上而下传输，我们可以校正这些效应，得到任何层次上植被密度的真实估计，为生活在复杂冠层世界中的鸟类和其他动物提供关于栖息地结构的关键信息 [@problem_-id:3812957]。

这种绘制三维结构的能力使我们能够看到生态系统是如何运作的。想象一下一场严重风暴后的森林。结果是一片破坏与幸存交织的拼布被。在某些地方，巨大的冠层空隙向天空敞开，让刺眼的阳光和干燥的风进入。在另一些地方，“干扰避难所”依然存在——这些完好无损的森林区域保留了林下凉爽、荫蔽和湿润的微气候。这两种斑块类型创造了一个独特的生态位镶嵌体。明亮、开阔的空隙很快被生长迅速、喜阳的植物占据。黑暗、受庇护的避难所则成为娇嫩、耐荫草本植物的最后堡垒。利用LiDAR，我们可以清晰地绘制出这种结构镶嵌图。通过将此结构图与地形和土壤湿度信息相结合，我们可以精确预测这些不同植物群落的分布位置，将一场风暴的物理过程与森林地上一朵小花的生态联系起来。这一原则尤其适用于河流和溪流沿岸的关键栖息地——河岸带。LiDAR能够测量河岸植被的垂直结构，这些植被提供荫蔽以保持水体凉爽，这使其成为流域管理中不可或缺的工具，其能力远超传统二维卫星图像所能推断的范畴。

第四维度：监测动态世界

世界不是静止的。它变化，它生长，它呼吸。为了捕捉这种动态性，我们必须在测量中加入第四个维度：时间。通过进行重复的LiDAR勘测，我们可以创建景观变化的影片，观察森林的生长或冰川的退缩。

但这引入了一个新问题：我们需要多久观测一次？答案来自信号处理的基本原理。奈奎斯特-香农采样定理告诉我们，要准确捕捉一个信号，你的采样频率必须至少是其最高频率的两倍。想象一下用一台老式手摇相机拍摄蜂鸟振翅。如果你的拍摄速度太慢，你看到的将不是平滑的振翅动作，而是一个令人困惑、跳跃的模糊影像，或者翅膀可能看起来像是冻结了。监测生态系统也是如此。如果我们想捕捉春季树叶迅速萌发的过程，这个过程可能在短短几周内展开，我们就需要足够频繁地执行LiDAR任务——也许每10天一次——以避免这种“混叠”现象，并重建真实的季节性故事。设计一个监测活动变成了一个在捕捉信号的科学需求、仪器的灵敏度和每次飞行的经济成本之间进行的精细平衡。

数据科学家的画布：从点到智能

机载激光扫描产生的海量数据既是挑战也是机遇。一次勘测就可以产生数十亿个点。我们如何将这些原始数据转化为知识？这就是LiDAR与现代数据科学和人工智能相遇的地方。

首先要认识到，点云不仅仅是一个坐标列表。它是一组具有丰富空间关系的点。要教机器理解这些数据，我们必须教它看到局部环境。早期的点云深度学习模型，如PointNet，采用了一种“全局”方法。它们会将整个点云总结成一个单一的描述性向量，从而丢失了所有精细的局部细节。这就像试图通过只知道一个句子包含哪些字母，而不知道它们的顺序来理解这个句子。

一种更复杂的方法，见于像PointNet++这样的架构中，模仿了我们自己视觉系统的工作方式。它不是一次性看整个场景，而是专注于点的微小、重叠的邻域。在每个微小的邻域内，它学习识别基本的几何模式：这是一条线吗？一个平面？一个球体？然后，它以分层的方式将这些局部识别拼凑起来，构建出整个场景的图像。这种对局部几何进行推理的能力，正是让机器能够区分树干的圆柱形结构和其树枝的细枝状结构的原因，从而极大地提高了自动分割和分类复杂自然环境的能力。

最终目标是创建一个对我们星球真正统一和智能的理解。这通常涉及“数据融合”或分层建模方法。我们可能有一些珍贵的、“黄金标准”的测量数据，是在野外样地中手工采集的。我们可以用这些数据来校准机载LiDAR勘测产生的数百万个测量值。反过来，我们可以利用来自LiDAR的详细结构信息来校准和改进对覆盖全球、无缝衔接的卫星影像中数十亿像素的解读。这就创建了一个“信息阶梯”，其中每一级都帮助我们理解其上和其下的一级，将知识从单片叶子的尺度传播到整个大陆的尺度，并量化不确定性。该领域的前沿在于创建能够自行适应的智能模型，学习将从一种类型传感器（比如机载系统）获得的知识应用到另一种不同的传感器（如地面或移动扫描仪），这个过程被称为域自适应。这是通过一个优美的对抗性游戏实现的，其中模型的一部分试图找到特定于域的模式，而另一部分则试图生成足够通用的特征以欺骗第一部分，从而变得真正通用。

统一的视角

从一个简单的光计时原理出发，我们构建了一个功能非凡的工具。它给了我们一种新的观察方式，一种跨越学科、用三维结构的共同语言将它们联合起来的方式。机载激光扫描使我们能够称量一片森林，为风暴后的植物找到庇护所，绘制隐藏的海底，并构建能学习像我们一样感知世界的智能系统。它不仅揭示了我们世界的复杂细节，也揭示了支配它的科学原理的深刻统一性。