音高检测

玻尔百科

关键要点

音高检测算法通过识别信号中的周期性模式来工作，其方法包括用于自相似性分析的自相关，或用于分离声源和滤波器的倒谱分析。
短时傅里叶变换（STFT）和小波变换等时频方法分析音高如何随时间变化，在时间精度和频率精度之间提供了一种权衡。
频率分析的原理在音频之外有广泛应用，使得利用WiFi监测生命体征、分析生物过程以及识别结构共振成为可能。

引言

从歌曲的旋律到人类言语的节奏，音高是我们世界中声音的基本组成部分。但是，机器如何学会“听”到这种基本特质呢？音高检测，或称基频估计，绝非易事；真实世界的信号通常是声源、环境噪声和动态变化的复杂混合体。本文旨在探讨如何创建能够从这种复杂性中可靠提取音高的算法。我们将首先探究其核心的原理与机制，从像自相关这样直观的时域方法，到倒谱和小波分析等强大的变换方法。然后，我们将探索其令人惊讶的广泛应用与跨学科联系，揭示这些相同的概念不仅是音频工程的基础，也是生物学、无线技术和化学等领域的基础，它们通过频率这一共同语言将不同领域联合起来。

原理与机制

机器是如何听到音高的？当我们聆听一段旋律时，我们的大脑进行了一项卓越的模式识别壮举，识别出我们感知为音符的声波的重复性。要制造一台能做到同样事情的机器，我们必须教会它如何在信号中寻找模式。这段旅程将带领我们从最直观的自比较概念，走向现代时频分析中精妙而强大的数学方法，揭示那些让我们能够解码世界节奏的优雅原理。

机器中的回声：自相关

让我们从最简单的想法开始。想象一下，你录下了一段小提琴持续发出的单音。这个声波的形状会一遍又一遍地重复。如果你制作一个这个波形的透明副本，将它覆盖在原始波形上，并沿着时间轴滑动，你会发现每当你滑动一个完整的周期距离时，它都会与原始波形完美对齐。在这些特定的时间偏移（或称延迟）上，两个波形的相似度最高。

这就是自相关函数（Autocorrelation Function, ACF）的本质。这是一个数学过程，我们将一个信号与它自身的时间偏移版本进行乘积运算，然后对结果进行求和。自相关函数在某个延迟 $k$ 处取得较大的正值，表明信号在偏移了 $k$ 个样本后与自身非常相似。对于一个周期信号，自相关函数会在对应于基频周期及其整数倍的延迟处显示出强烈的峰值。第一个显著的峰值（忽略零延迟处的峰值，那里信号与自身完美相关）就给出了音高周期。

当然，我们也有其他选择。与其用乘法来衡量相似性，我们也可以用减法来衡量不相似性。平均幅度差函数（Average Magnitude Difference Function, AMDF）正是这样做的。它计算一个信号与其偏移副本之间的平均绝对差。在这种方法中，我们寻找的是深谷而不是高峰。对应于周期的延迟会产生接近于零的差值，从而在AMDF图上形成一个尖锐的下降。

在一个完全纯净、无噪声的世界里，这两种方法都能完美工作。但在充满噪声的现实世界中，选择哪种方法就很重要了。例如，一个简单的分析表明，在某些噪声条件下，AMDF谷的清晰度与ACF峰的清晰度退化方式可能不同。ACF涉及对信号进行平方运算，这可能会放大高幅度噪声尖峰的影响，而AMDF使用的绝对幅度则可能更为宽容。这揭示了信号处理中一个反复出现的主题：很少有单一的“最佳”工具，只有适合不同情况的权衡取舍。

解码语音：倒谱分析

自相关方法对简单的周期信号效果很好，但处理像人声这样复杂的信号时就会遇到麻烦。一个浊音，比如元音“ah”，并不仅仅是一个简单的重复波。它是两部分的组合：一是来自声带的快速振动的声源信号（它提供了音高），二是你声道——即喉咙、口腔和鼻腔形状——的滤波效应。声道就像一个复杂的共振腔，增强某些频率，抑制另一些频率。

用信号的语言来说，声源和滤波器不是相加，而是卷积。最终得到的声音波形是声源 * 滤波器。这种卷积将两个分量混合在一起，使得像自相关这样的简单方法难以分离出声源的底层周期性。我们如何将它们解开呢？

这里，我们采用一种非常巧妙的数学“技巧”，称为同态处理。关键在于对数。你可能还记得在学校学过，对数有一个奇妙的特性：它能将乘法转化为加法。所以，如果我们对信号进行傅里叶变换（将其转换到频域，此时卷积变为乘法），然后取频谱的对数，我们得到：

\ln|X(\omega)| = \ln|S(\omega) \times H(\omega)| = \ln|S(\omega)| + \ln|H(\omega)|

这里， $S(\omega)$ 是声源（音高）的频谱， $H(\omega)$ 是声道滤波器的频谱。现在，这两者被简单地相加了！最后一步是对这个对数频谱进行傅里叶逆变换。结果所在的域既不是时间域，也不是频率域；它有一个奇特的名字叫倒频率（quefrency），而在这个域中的信号被称为倒谱（cepstrum）。

这种方法的美妙之处在于，现在已成为加性关系的两个分量，位于不同的“倒频率”邻域中。声道信息（ $H(\omega)$ ）是平滑且缓慢变化的，所以它最终落在低倒频率区。音高信息（ $S(\omega)$ ）来自周期性的脉冲序列，这在频谱中产生一系列谐波尖峰，并转化为倒谱中一个强烈而清晰的峰值，其位置在等于音高周期的倒频率处。然后我们可以轻松地找到这个峰值来确定音高，从而有效地“解卷积”或分离声源与滤波器。当然，在实践中，我们必须小心。强烈的低倒频率声道分量仍然可能“泄漏”出来，掩盖音高峰。这就需要在进行变换之前，对对数频谱小心地应用加窗函数，以便更干净地隔离这些分量。

声音的时间图景：语谱图

到目前为止，我们一直在考虑一个单一、持续的声音。但是真实世界的音频——语音、音乐、动物叫声——是不断变化的。音高上下起伏，声音有起有停。对整首歌曲进行一次傅里叶变换会告诉我们所有演奏过的音符，但会把它们混合成一碗大的谐波汤，完全失去了时序和节奏感。

为了解决这个问题，我们使用短时傅里叶变换（Short-Time Fourier Transform, STFT）。我们不是一次性分析整个信号，而是在信号上滑动一个小“窗口”，并只计算窗口内那一小段信号的傅里叶变换。我们对一系列重叠的窗口位置都这样做。结果是一系列频谱，每一个都是特定时刻频率内容的快照。

当我们将这些快照并排堆叠时，我们创造了一幅美丽而直观的声音地图：语谱图。它是一个二维图像，一个轴是时间，另一个轴是频率，每个点的颜色或强度代表该频率在该时间的强度。你可以真切地看到一段音乐中的旋律，就像一条线在时间中描绘出音高的轨迹。

旋转中的秘密：利用相位提高精度

我们通常看到的语谱图只是故事的一半。傅里叶变换产生的是复数；我们通常绘制的只是它们的幅值——即每个频率分量的强度。但是另一部分，即相位，又如何呢？事实证明，相位包含了极其精确的信息。

想象一下观察一个以恒定速度旋转的轮子。STFT的幅值告诉你它正在旋转。而相位则告诉你，在你拍下快照的那一刻，它的确切朝向。现在，假设你连续快速地拍下两张快照。通过比较第一张照片中轮子的朝向（相位）和第二张照片中的朝向，你就能以惊人的精度计算出它的旋转速度（频率）——远比仅通过观察单张照片中的模糊程度来得准确。

这就是基于相位的频率估计原理，通常用于一种称为相位声码器（phase vocoder）的设备中。通过分析连续两个STFT帧之间的相位差 $\theta_m[k] - \theta_{m-1}[k]$ ，我们可以计算出瞬时频率的高度精确估计。当然，我们必须巧妙地处理它。相位每 $2\pi$ 弧度就会“回绕”一次，就像时钟的指针从12跳回1一样。数学上必须考虑到这种回绕，才能正确地推断出与我们分析窗口中心频率的偏差。这种方法使得我们在现代音乐制作中经常听到的极其平滑的音高变换和时间伸缩效果成为可能。

分析者的困境：不确定性原理与小波

STFT尽管功能强大，但有一个根本性的限制，它与量子力学中的海森堡不确定性原理是近亲。你选择的分析窗口大小会造成一种权衡。

一个宽窗口能捕捉到波形的多个周期，为你提供出色的频率分辨率。你可以区分两个非常接近的音符，但你会失去对事件发生时间的精确追踪，因为宽窗口内的所有事件在时间上都被模糊化了。
一个窄窗口能为你提供出色的时间分辨率，精确定位声音发生的瞬间。但由于窗口太短，它只捕捉到波形的很小一部分，导致频率分辨率很差。你知道那一刻发生了什么事，但你不能确定它是什么音符。

如果你的信号既包含需要极佳频率分辨率的长而低频的鲸鱼歌声，又包含需要极佳时间分辨率的一系列短暂、高频的海豚咔哒声，你该怎么办？[@problem-id:1730868]。你陷入了两难的境地。对STFT来说，任何单一的窗口选择都是一种妥协，对于信号的某一部分或另一部分来说都是次优的。

这时，小波变换（Wavelet Transform）应运而生。可以把STFT想象成用一个单一、固定大小的放大镜来分析你的信号。而小波变换则像拥有一整套放大镜，并且能智能地使用它们。它使用一个称为“母小波”的原型函数的缩放版本来分析信号。

为了分析低频分量，它使用长的、被拉伸的小波。这些小波在时间上很宽，就像一个宽的STFT窗口，提供了出色的频率分辨率。
为了分析高频、瞬态分量，它使用短的、被压缩的小波。这些小波在时间上很窄，提供了捕捉突然尖峰或咔哒声所需的出色时间分辨率。

这种多分辨率分析使得小波变换能够适应信号，在正确的时间和频率上提供恰当的分辨率。它能同时为你提供鲸鱼音高的精确估计和海豚咔哒声的准确时间。

可能性之边界：基本极限

有了这套日益复杂的工具库，人们可能会想：我们能永远改进我们的音高检测算法吗？我们能达到的精度有极限吗？

答案是肯定的。正如光速设定了宇宙的速度极限一样，信息论的原理也为测量设定了基本极限。克拉默-拉奥下界（Cramér-Rao Bound, CRB）是估计理论中一个著名的结果，它为任何无偏估计量的方差（一种误差度量）提供了一个下界。简单来说，它告诉你对于一个给定的测量场景，你所能期望达到的绝对最佳精度。

对于估计淹没在噪声中的正弦波频率的问题，CRB告诉我们，我们可能达到的最佳精度取决于两个关键因素：信噪比（Signal-to-Noise Ratio, SNR）和我们观察到的样本数量 $N$ 。毫不意外，更强的信号（更高的SNR）或更多的数据（更大的 $N$ ）能得到更好的估计。然而，真正非凡的是，这个下界如何依赖于 $N$ 。对于频率估计，最低可能方差与 $1/N^3$ 成比例。将你的数据记录长度加倍，并不仅仅是将误差减半；它能将误差减少八倍！。这个界限是一个优美而深刻的论断。它是我们努力的目标，也是一个谦逊的提醒：无论我们的算法多么巧妙，我们都无法从数据中提取出比自然赋予它的更多信息。

应用与跨学科联系

在我们的频率与音高原理之旅后，你可能会认为这些概念——自相关、傅里叶变换等等——主要只是音频工程师的工具，是处理音乐和语音的巧妙技巧。它们确实如此！能够对一段音乐进行处理，比如，在不让歌手的声音听起来像仓促奔跑的花栗鼠的情况下提高其音高，这是现代信号处理的一大奇迹。通过在微小的、重叠的时间窗口中分析信号，我们可以确定每个片段内的瞬时频率。然后，我们可以在将所有信息重新组合之前，拉伸或压缩这些频率信息，从而在保持原始时长的同时有效地改变音高——这个过程是音乐制作和特效工作室中无处不在的“相位声码器”的核心。

然而，若仅止于此，便好比只见一键而未识全貌。我们所探讨的概念不仅仅是为了我们的娱乐；它们是一种自然界本身也在使用的通用语言。世界充满了振动、振荡和节奏，分解和理解这些信号的能力是无数科学和工程领域的基础。

让我们首先思考我们自身的生物学。远在傅里叶之前，大自然就已经发明了频谱分析仪。你的耳朵，以及无数其他生物的耳朵，不仅能探测声音，还能将其分解为组成它的频率。你内耳中的耳蜗是生物工程的奇迹，一个蜗牛状的结构，它通过机械方式按频率对传入的声波进行分类，高频激励一端，低频激励另一端。这让你能够在一个管弦乐队中区分小提琴和大提琴的音高。神经科学家和生物学家对这一过程进行建模，以理解动物如何感知它们的世界。对于像青蛙这样的无尾目两栖动物来说，它能否在雨林池塘的嘈杂声中听到配偶的呼唤，取决于其听觉系统的“临界频带”。这些频带就像我们FFT中的频率箱，是隔离一小段频率范围的滤波器。只有当一个临界频带内的信号功率足够强，能够从同一频带的噪声功率中脱颖而出时，青蛙才能探测到配偶的呼唤。这是一个大自然已巧妙解决的信噪比问题。

这种感知振动的原理并不仅限于听觉。你的触觉在某种程度上也是一个频率探测器。你皮肤中不同的机械感受器对不同频率的振动有不同的调谐。慢适应（SA）感受器对静态压力和低频纹理作出反应，而快适应（RA）感受器则响应更快的变化，如颤动感。皮肤本身就像一个机械滤波器，其特性会改变振动的传播方式。随着年龄的增长，我们的皮肤通常会变得更硬。使用简单的机械模型——将皮肤看作一个微小的质量-弹簧-阻尼系统——我们可以预测这种增加的硬度如何改变频率响应。事实证明，更硬的皮肤能更有效地将高频振动传递到更深的组织，但会抑制表面的低频位移。这有助于解释为什么年龄会改变我们的触觉敏感度，使我们在检测某些纹理时变得更好，而在另一些方面变得更差，所有这些都是因为我们皮肤的“频率调谐”在物理上被改变了。

然而，振动的世界远超我们能直接听到或感觉到的范围。我们用来寻找声音音高的同样方法，可以用来探测生命本身难以察觉的运动。想象一下，在不接触甚至不清楚地看到一个人的情况下，监测他的呼吸。这听起来像是科幻小说里的情节，但使用我们房间里无处不在的WiFi信号是可能实现的。WiFi信号是一种高频电磁波。当这股波从一个人的胸部反射时，呼吸的微小、周期性运动——一种非常低频的振荡，大约在 $0.25$ 赫兹——会对反射波施加一种微妙的相位调制。这是一种微多普勒效应。通过分析接收到的WiFi信号随时间变化的相位并计算其功率谱，我们可以发现一个与呼吸频率对应的清晰峰值。我们实际上是在探测呼吸的“音高”，不是在声波中，而是在我们周围的无线电波回声中。

频率分析的应用甚至更深，直达分子水平的生命机器。一个活细胞是一个充满化学反应和信号通路的繁忙城市，不断地对其环境作出反应。但是，细胞如何区分一个持续的、有意义的信号和随机的、短暂的化学噪声呢？它使用滤波。考虑植物对生长激素赤霉素（GA）的反应。GA通过触发DELLA蛋白（一种生长抑制因子）的分解来促进生长。这种分解的速率取决于GA的浓度。利用线性系统理论的数学方法——与电气工程师设计电路使用的工具相同——我们可以对这个通路进行建模。模型揭示，DELLA蛋白的浓度充当了一个低通滤波器。如果GA浓度波动剧烈且迅速，DELLA浓度则保持相对稳定。系统根本没有时间作出反应。但如果GA持续增加，DELLA蛋白就会被稳定地降解，植物就会生长。该系统有一个“截止频率”，即它能追踪的信号的速度上限。通过这种方式，细胞有效地“聆听”来自生物体的缓慢、审慎的指令，同时滤除高频静电噪声。

这种生物“速率”或“频率”的概念也出现在复制这一基本过程中。在一个呈指数增长的细菌种群中，DNA在不断地被复制。这个过程从一个复制起始点开始，并围绕环状染色体向两个方向进行。如果我们对整个种群进行快照并对所有DNA进行测序，我们会发现靠近起始点的基因平均比靠近终点（“terminus”）的基因数量更多。为什么？因为对于任何一个给定的细胞，起始点已经被复制，但终点可能还没有。这在整个染色体上造成了基因拷贝数的梯度。将这个拷贝数的对数与染色体上的位置作图，会揭示出在起始点形成峰值、在终点形成谷值的美丽直线。这些直线的斜率并非任意的；它由两个基本速度的比率决定：细胞的生长速率 $\mu$ 和复制叉的速度 $v$ 。通过简单地测量这个斜率，微生物学家就能推断出关于生命最基本过程动力学的深刻事实。

“音高”和“频率”的概念甚至超越了时间本身，在物质的静态结构中找到了归宿。声波的音高是其在冻结瞬间的空间周期，即一个波峰到下一个波峰的距离。现在，看看优雅的螺旋结构—— $\alpha$ -螺旋，蛋白质的一个基本构建模块。它也有一个螺距（pitch）。这不是以赫兹为单位的时间频率，而是一个*空间频率*，以埃/圈为单位。本着同样的数学精神——寻找主轴，投射数据，并寻找周期性关系——结构生物学家可以编写算法，根据其原子坐标计算蛋白质螺旋的精确螺距和半径。这有助于他们量化螺旋可能如何弯曲或扭结，这些偏离对于蛋白质的功能往往至关重要。从空气中的声波到链条中的氨基酸，重复模式——即频率的概念——提供了一个统一的描述框架。

为了结束我们的巡礼，让我们来看看频率为王的最后两个强大领域：我们机器的稳定性和分子的舞蹈。当工程师建造任何复杂系统时，从机器人臂到飞机机翼，他们都必须警惕共振。每个物理物体都有其“喜欢”振动的固有频率。如果系统在这些频率之一被激励，振动可能会失控增长，导致灾难性故障。识别这些隐藏的共振是控制理论中的一项关键任务。工程师通过注入一个具有一定频率范围的测试信号（可以是缓慢的扫描或宽带脉冲）并测量系统的响应来执行系统辨识。在波特图上，幅值响应中的一个尖锐峰值和相位的快速转变，立即揭示了一个必须被控制的轻阻尼、危险的共振。

最后，让我们再次回到化学世界。液体中的分子是如何相互作用的？水中的氢键断裂和重组有多快？这些都是关于分子运动的频率以及它们在时间上如何相关的问题。在一个普通的光谱中，我们可能会看到水中O-H伸缩振动的宽峰，但我们无法分辨这种展宽是由于每个氢键的振动略有不同（非均匀展宽），还是由于每个键的振动频率变化非常迅速（均匀展宽）。像二维红外（2D-IR）光谱学这样的先进技术可以解开这个谜团。通过使用一系列超快激光脉冲，这些实验可以将分子最初被激发的频率与其稍后被检测到的频率关联起来。如果频率高度相关——在二维光谱的对角线上显示为一个拉伸的峰值——这意味着分子“记住”了它的原始频率，这是静态、非均匀环境的标志。如果记忆迅速消失，峰值变得对称，则表明存在快速的动力学过程。

从人类尺度上的声音和触觉世界，到无线电波、细胞信号和分子键的无形领域，频率分析工具不仅有用，而且不可或缺。它们构成了一种通用的透镜，让我们能够在每个尺度上看到宇宙的节律性和振荡性。最初为理解音符音高而做的尝试，最终赋予了我们一种语言，用以描述机器的稳定性、染色体的复制，乃至生命本身的舞蹈。这些现象背后潜在的统一性，通过一根共同的数学线索得以揭示，这正是科学深刻的美感之一。