
普通相机以三种颜色捕捉世界,但这仅仅触及了光所携带信息的皮毛。它看到了形式,却忽略了本质——每种物质所拥有的独特化学指纹。这就留下了一个关键的知识空白:我们如何能够远程、无损地定量识别和评估物质?高光谱成像提供了答案,它将我们对光的感知从简单的视觉体验转变为丰富的诊断数据来源。
本文是对这项强大技术的全面介绍。首先,在“原理与机制”一章中,我们将解析其基本概念,从如何捕获和分离光谱特征,到用于解构复杂混合信号的数学模型。随后,“应用与跨学科联系”一章将展示这些原理如何被应用于解决现实世界的问题,从而彻底改变从环境科学到人工智能等多个领域。我们的旅程将从探索高光谱成像让我们得以解读的光的语言开始。
想象一下你正在拍照。你的相机通过测量红、绿、蓝三个宽泛类别中的光来捕捉美丽的场景。对于每个像素,你得到三个数值。这就像听一场交响乐,却只能描述低、中、高音的总音量。你对音乐有了大致的感觉,但错过了复杂的细节、独立的乐器和精确的旋律。高光谱成像则为我们提供了完整的乐谱。对于每一个像素,我们得到的不是三个值,而是数百个值。我们捕捉到一幅详细的光谱——光强度随波长变化的连续测量——从而以惊人的细节水平揭示场景。这个由每个像素的光谱组成的集合,构成了一个三维数据立方体 (),这是我们研究的基本对象。
为什么要费这么大功夫?因为不同的物质与光以独特的方式相互作用。当来自太阳或灯光的光线照射到物体上时,一部分光被吸收,另一部分被散射回我们的传感器。被吸收的特定波长由物质的分子结构决定。这就为每种物质创造了一个独特的光谱“指纹”,即光谱特征。一个水分子、一个叶绿素分子、一种特定类型的矿物——它们都有自己用光的语言写成的特征信号。
通常,这些特征在光谱上表现为急剧的下降,称为吸收特征。为了正确地研究它们,我们首先需要将它们与光谱的整体亮度和宽缓的曲率分离开来,后者可能受到诸如照明光颜色或表面纹理等因素的影响。用于此目的的技术称为连续统去除。想象一条带有一些凹陷的光谱;连续统就像我们覆盖在光谱顶部的一个“盖子”或“外壳”,仅与波峰接触。通过将原始光谱除以这个连续统,我们得到一个归一化光谱,其中所有波峰都位于处,而吸收特征则表现为基线下方干净的凹陷。这使得在不同亮度条件下测量的不同像素的吸收特征可以进行公平比较。
一旦我们分离出一个吸收特征,我们如何分析它的形状?在这里,微积分工具变得出奇地强大。通过对光谱求导数,我们可以增强微小的细节。一阶导数告诉我们光谱的斜率。它在吸收谷底处为零,但在特征的“肩部”具有强烈的正负峰值,这使其非常适合于寻找特征的边缘。二阶导数告诉我们曲率。对于一个对称的吸收特征,二阶导数将在吸收中心处有一个大的正峰。真正巧妙的是,这个峰的高度与特征宽度的平方成反比()。这意味着非常窄而尖锐的吸收特征——通常对应于特定的、明确的化学成分——在二阶导数中产生的信号要比宽而浅的特征强得多。这就像一个数学放大镜,优先放大了我们光谱中最锐利的细节。当然,没有免费的午餐;这个放大镜也会放大高频测量噪声,这是我们必须始终权衡的利弊[@problem_id:3801770, 3845853, 3852864]。
在理想世界中,高光谱图像中的每个像素都只包含一种物质。但现实中,情况很少如此。卫星图像中的单个像素可能包含水、土壤和植被的混合物。组织样本的显微镜图像中的一个像素可能包含几种不同类型的细胞和细胞外基质。我们测得的光谱是一个混合物。这给我们带来了高光谱成像中的一个核心挑战与机遇:解混问题。我们能否观察混合光谱,并推断出其中包含什么物质,以及它们的比例是多少?
最简单和最常见的方法是线性混合模型 (LMM)。它假设像素就像一个棋盘或由纯物质组成的细粒度马赛克。在这种情况下,我们看到的光仅仅是来自每个纯组分的光的总和,并按其所占像素面积的比例加权。在数学上,我们将其写为:
这里, 是我们测量的像素光谱,矩阵 的列是我们的端元(例如,纯水、纯土壤)的纯光谱特征, 是丰度向量(每个端元的分数含量), 是一些测量噪声。目标是找到丰度向量 。
该模型的强大之处在于它与物理现实的联系。丰度 代表面积分数。因此,它们必须遵守两条简单的常识性规则:它们不能是负数(丰度非负约束,或 ANC),并且它们必须总和为一(丰度和为一约束,或 ASC),因为部分必须构成整个像素。当我们试图求解丰度时,这些物理约束就变成了数学条件,引导我们找到一个唯一的、具有物理意义的解。
线性混合模型非常直观,但它基于一个隐藏的假设:进入像素的光子在反射到我们的传感器之前,只与一种类型的物质相互作用。如果这个假设不成立会怎样?
考虑一个有间隙的森林冠层,透过间隙可以看到下面的土壤。一个光子可能从太阳飞下,从一片叶子上散射,穿过间隙到达土壤,从土壤反射,再穿过冠层向上,从另一片叶子上散射,最终进入我们的传感器。这个光子现在已经与植被和土壤都发生了“对话”。它的旅程耦合了它们的光学特性。最终的光谱不再是一个简单的加权和。这种现象称为多次散射,是非线性混合的主要来源[@problem_id:4357402, 3809830]。
这种效应的特征非常迷人。因为相互作用涉及一系列的反射,比如先从土壤反射再从植被反射,所以在我们的模型中产生的非线性项通常看起来像是两个端元光谱的乘积,。当物质具有高反射性(即具有高的单次散射反照率)时,这个“双线性”项最为显著,这使得光子能够在多次散射事件中存活下来而不被吸收。对于植被来说,这种情况发生在光谱的近红外部分。
我们如何判断是否需要放弃简单的线性模型而采用更复杂的非线性模型呢?我们可以巧妙地让数据告诉我们答案。首先,我们将最优的线性模型拟合到我们测量的光谱上。然后我们观察剩下的部分——残差。如果线性模型是完美的,这个残差将只是随机噪声。但如果发生了显著的非线性混合,残差将包含未被建模的物理效应。然后我们可以检验这个残差的光谱形状是否与我们预测的双线性项相匹配。这提供了一个强大的诊断测试,让我们能够向数据本身发问,我们的物理假设是否有效。
有时,我们的目标并非完全解混一个像素,而仅仅是确定是否存在特定的目标物质。为此,我们需要一种方法来衡量我们测量的像素光谱与目标物质的已知光谱库之间的“相似性”。将光谱视为高维空间中的向量,我们有不同的方式来思考相似性。
其中最优雅的一种是纯几何方法:光谱角匹配 (SAM)。想象两个从原点出发的向量。SAM只是简单地计算它们之间的夹角。如果夹角为零,则向量指向同一方向——它们的形状相同,即使其中一个比另一个长得多。这具有深远的实际意义。处于阴影中的物质产生的光谱形状与处于阳光直射下的相同物质的光谱形状相同,但会暗得多。其光谱向量会更短。SAM对这种亮度缩放完全不敏感,因为它只关心角度。这使我们能够不考虑光照条件来识别物质,这在遥感中是一个巨大的优势[@problem_id:3852864, 3853159]。
然而,SAM对周围环境是盲目的。一种更复杂的方法是统计学方法。匹配滤波器 (MF) 不仅问“这个像素与我的目标有多相似?”,它问的是“这个像素看起来像我的目标的程度,相对于它看起来像典型背景杂波的程度是多少?”它利用背景光谱的统计协方差来抑制常见的变化,并增强目标的独特特征,从而最大化信噪比。这是一种更强大的检测策略,但它需要了解背景统计信息,这是我们为提高性能所付出的代价。
我们的大脑习惯于三维世界。而高光谱数据拥有数百个光谱波段,存在于数百维的空间中。在高维空间里,我们的低维直觉会以奇特而美妙的方式失效。这通常被称为维度灾难。
其最显著的表现之一是测度集中。这里有一个奇怪的例子:在一个高维球体内随机选取两个点。它们之间的距离几乎肯定非常接近平均距离。换句话说,所有点对之间的距离都趋于相同!
让我们将此应用于我们的光谱。假设我们有两类物质,我们测量光谱之间的欧几里得距离。来自同一类别的两个不同光谱之间的距离将集中在某个随维度 增长的大值附近。来自不同类别的两个光谱之间的距离也将集中在一个大值附近。除非“信号”——即类别均值之间的分离度——也随维度迅速增长(具体来说,像 那样),否则类内距离和类间距离之间的相对差异将消失。所有东西看起来都与其他东西等距,这使得基于简单欧几里得距离的分类成为一项危险的任务。
这种奇异性告诉我们,并非所有维度都是平等的。数百个波段中有很多可能包含噪声或冗余信息。我们需要方法来找到数据中最重要的变化方向,这个过程称为降维。这项工作的主力是主成分分析 (PCA)。PCA为数据找到一组新的坐标轴,并按以下方式排序:第一个轴与最大方差方向对齐,第二个轴与次大方差方向对齐,依此类推。
但这里有一个关键的微妙之处。PCA被定义为分析方差,而方差在数学上被定义为数据围绕其均值的分布。因此,在执行PCA之前,首先对数据进行均值中心化——即从每个像素的光谱中减去平均光谱——是绝对必要的。如果你不这样做,数据云将远离原点。最大“变化”的方向将仅仅是从原点到数据云中心的方向。第一个主成分将被平均光谱所主导,而平均光谱通常代表场景的整体亮度,而不是我们真正试图寻找的物质之间有趣的光谱差异。
到目前为止,我们的旅程常常假设我们知道我们正在寻找的纯端元特征。但如果我们不知道呢?我们能直接从混合数据中发现它们吗?这就是盲源分离的领域,而独立成分分析 (ICA) 是其强大的工具。
PCA寻找的是不相关的方向(一个二阶统计属性),而ICA寻找的是尽可能统计独立的方向(一个涉及所有高阶统计的更强条件)。其潜在的物理假设是,生成我们数据的源本身是独立的。例如,一组像素中水的丰度分数和植被的丰度分数可能会相互独立地变化。ICA利用这个假设来“解混”信号。要成功,它有一个关键要求:底层的源信号必须是非高斯分布的(或者最多只有一个可以是高斯分布)。一个由独立的、非高斯源组成的世界,正是ICA大显身手进行解混的理想环境。这完美地展示了,通过超越简单的均值和方差,审视数据的完整统计结构,可以揭示创造这些数据的隐藏物理过程。
在了解了高光谱成像的基本原理之后,我们现在到达了探索中最激动人心的部分:我们能用它来做什么?一个科学仪器的真正魅力不仅在于它的工作原理,更在于它所开辟的新世界和它让我们能够提出的新问题。高光谱成像不仅仅是拍摄漂亮的彩色图片;它是在每一个点上捕捉世界定量的、物理的指纹。这种看到物质“无形特征”的能力,使其从一个简单的相机转变为一种通用的光的语言翻译器,其应用横跨各个科学学科。让我们来探索其中的一些前沿领域。
也许高光谱成像最直接和深远的应用在于监测我们自己星球的健康状况。从轨道上,我们可以将这项技术转向地球,进行一次行星尺度的健康检查。
想象一下从太空中俯瞰珊瑚礁。在我们的眼中,那是一片美丽但无法区分的蓝色和棕色斑块。但高光谱传感器能看到更多。它可以区分健康珊瑚、因胁迫而“白化”的珊瑚,以及通常会占据垂死珊瑚礁的藻类的独特光谱特征。通过应用一个称为线性混合模型的优美而简单的思想,科学家们可以观察单个像素——其中可能包含所有三种成分的混合物——并定量地确定每种成分所覆盖的面积比例。这就像看着一桶油漆,并从其最终的颜色中计算出混合在一起的红、黄、蓝色的确切比例。这使得我们可以创建详细、大范围的珊瑚礁健康地图,为拯救这些至关重要的生态系统提供了关键工具。
这种诊断能力从海洋延伸到陆地。考虑一片农田。农民想知道作物是否获得足够的水,或者是否正在遭受病害。远在叶片明显枯萎或变黄之前,植物的生理状况已经发生了变化。叶片表面的微小气孔(气孔)可能会关闭以保存水分,导致叶片温度升高——一种植物的“发烧”现象。其光合作用机制的效率可能会下降。高光谱成像可以检测到这些细微的变化。含水量的变化会改变短波红外光谱,而胁迫会影响光合色素的微妙相互作用,这可以通过反射率和微弱的叶绿素荧光来追踪。通过将高光谱数据与热成像(检测“发烧”)和荧光测量相结合,我们可以构建一幅全面的植物健康图景,创建一个“高通量表型分析”平台,可以筛选数千种植物的抗逆性——这是确保我们未来粮食安全的一项关键任务。
更普遍地说,高光谱成像使我们能够以前所未有的复杂程度进行变化检测。假设我们想监测森林的非法采伐或入侵物种的蔓延。一张简单的照片可能无法揭示变化,特别是当一种绿色植被被另一种取代时。但它们的光谱特征会有所不同。一种强大的方法是将每种已知的土地覆盖类型(例如“松林”、“橡树林”、“草地”)视为一个数学子空间。一个像素的光谱预计会落在这些已知子空间中的一个之内。一种变化,例如新物质的出现或胁迫状态,表现为一个不再能整齐地归入任何预定义类别的光谱。这就像发生了“能量泄漏”,泄漏到一个与所有已知类别都正交的数学空间中。通过寻找这种异常能量,我们可以检测到光谱上微妙但生态上显著的变化,并且我们可以稳健地做到这一点,而不会被从一个已知类别到另一个已知类别的简单、良性变化所迷惑。
同样的原理,既可以让我们监测一个星球,也可以按比例缩小,以微米级的精度监测工业过程。例如,在制药行业,确保活性药物成分(API)在药片中均匀混合是生死攸关的问题,特别是对于低剂量药物。
想象一下这个挑战:你需要将一勺强效API混入一个浴缸大小的惰性粉末大桶中,并确保其完美、均匀地分布。你如何确定?你不能只取几个样本然后寄希望于好运。这就是由光谱学驱动的过程分析技术(PAT)发挥作用的地方。通过将高光谱成像探头集成到混合器中,可以实时获得内部化学成分的完整地图。与近红外(NIR)或拉曼光谱等单点方法(就像在混合物的一个点上品尝)不同,高光谱成像提供了一幅完整的画面,确保没有结块或空白点。它使制造商能够观察混合过程,并精确地知道何时达到均匀性,从而从“测试-祈祷”模式转向“质量源于设计”的范式。
许多高光谱成像最激动人心的应用都涉及一个共同的挑战:在一个由多种物质混合、被噪声和大气效应干扰的像素中,找到特定物质(“目标”)的微弱特征。这就是目标检测的艺术,它在很大程度上依赖于信号处理中优雅的数学方法。
假设你正在地球表面寻找一种稀有矿物。它的特征可能与土壤和植被等更常见物质的特征混合在一起。这就像试图在拥挤、嘈杂的房间里听到某个特定的人的耳语。如果你知道其他干扰物质的“声音”,你能把它们过滤掉吗?答案是肯定的。已知的不需要物质(“干扰”)的光谱特征可以用来定义一个“干扰子空间”。使用一种称为正交子空间投影(OSP)的技术,我们可以通过数学方式投影测量信号,从而完美地消除来自该子空间的所有能量。这就像投下一个精确抵消已知声音的“阴影”,让我们目标的微弱耳语得以清晰地被听到。这种抑制结构化干扰的能力是从复杂场景中提取有意义信息的基础。
高光谱图像不仅数据丰富,而且数据量巨大。单个场景的大小可能达到千兆字节,包含数百万个光谱,每个光谱都有数百个数据点。没有强大的计算工具,理解这种数据洪流是不可能的,而这正是高光谱成像与现代机器学习和人工智能进入美妙共生关系的地方。
驯服这种复杂性的第一步通常是降维。像主成分分析(PCA)这样的技术可以将数百个相关的光谱波段提炼成少数几个能够捕捉大部分信息的“主成分”,使后续分析变得更加易于管理。
一旦数据处于可处理的形式,就可以应用机器学习分类器。像支持向量机(SVM)这样的先进方法使用了一个优美的数学思想,称为“核技巧”。如果你无法在本机的高维空间中分离两类光谱,核技巧会将它们映射到一个更高维的“特征空间”,在那里它们可能变得容易分离——而且它做到这一点时,根本不需要显式计算新空间中的坐标!这使得能够创建强大的非线性分类器,可以学习光谱类别之间的微妙差异。
然而,最深度的整合是与深度学习的结合。我们可以将高光谱立方体视为一个多通道图像,并将其输入卷积神经网络(CNN)。但是对于数百个波段,标准CNN的计算成本太高。这推动了像MobileNet这样的高效架构的采用,它们使用了一种巧妙的“深度可分离”策略。它们不是一次性混合空间和光谱信息,而是首先在每个波段内独立学习空间模式,然后使用轻量级的 卷积来学习如何混合光谱信息。这是一种出色的分而治之的方法,可以在不牺牲性能的情况下显著降低计算成本。
更进一步,我们可以将光谱不视为向量空间中的一个点,而是一个序列,就像一个句子。这为使用自然语言处理中最强大的架构——Transformer——打开了大门。通过对光谱波段进行标记化,并设计一种能够理解波长物理现实(包括其不规则间距)的“位置编码”,我们可以应用Transformer的自注意力机制。注意力机制允许模型为每个波长学习,哪些其他波长(即使是远处的波长)对其解释最重要。这与光谱学完美匹配,因为整个光谱的形状,包括吸收特征之间的长程相关性,定义了物质。从本质上讲,我们正在教机器“阅读”光的语言。
最后,我们甚至可以教机器去创造。生成对抗网络(GAN)可以被训练来合成新的、逼真的高光谱图像,或许可以填补被大气遮挡的波段,或者生成更多的训练数据。关键是设计一个理解物理学的损失函数——即GAN试图最小化的目标。例如,光谱角匹配(SAM)损失会在生成光谱的形状错误时惩罚GAN,但它对整体亮度不敏感。这教会了网络,光照可以改变,但底层的物质特征必须被保留。我们正在将我们的物理直觉直接构建到人工智能的学习过程中[@problem_-id:3815155]。
从生态到工业,从信号处理到人工智能的前沿,高光谱成像都是一个统一的工具。它证明了将一个物理原理——即每种物质都有独特的光谱指纹——转变为一种定量技术的力量,这种技术使我们能够以我们才刚刚开始想象的方式探索、监测和理解我们的世界。