无标记定量

玻尔百科

核心要点

LFQ的基本原理是，肽段在质谱仪中的信号强度，特别是其色谱峰下的面积，与其丰度成正比。
精确的LFQ需要复杂的计算步骤，如保留时间对齐和中位数归一化，以校正不同样本运行间的技术差异。
LFQ可以通过两种主要策略进行：整合MS1峰面积（更精确），或进行谱图计数（更简单，但对于高丰度蛋白质容易饱和）。
LFQ是医学和生物学中的强大工具，能够支持生物标志物发现、理性疫苗设计以及疾病中细胞适应性的研究。

引言

在细胞这个广阔而动态的世界里，蛋白质是主要的角色，理解其数量的动态变化是揭开健康与疾病奥秘的关键。然而，在大型研究中比较众多样本间的蛋白质水平是一项重大挑战；那些需要标记每一种蛋白质的方法可能因其复杂性和成本而令人望而却步。无标记定量（LFQ）技术优雅地填补了这一空白。本文将对这一强大的蛋白质组学技术进行全面概述。首先，在“原理与机制”一章中，我们将深入探讨信号强度与数量成正比的基本概念，探索肽段在液相色谱和质谱分析中的旅程。我们将剖析两种主要的定量策略——峰面积积分和谱图计数——并解析归一化、对齐和处理缺失数据等关键的计算难题。随后，“应用与交叉学科联系”一章将展示LFQ如何被应用于解答生物学和医学中的关键问题，从模式生物的基础研究到新疫苗的开发，再到对人类疾病的深入研究。读完本文，您将不仅理解LFQ的工作原理，还会明白为何它已成为现代生物学家工具箱中不可或缺的工具。

原理与机制

想象一下，你是一位生物学家，肩负着一项艰巨的挑战：理解健康人与糖尿病患者血液之间的差异。你怀疑关键在于蛋白质——这些驱动我们细胞运转的微小分子机器。但是，蛋白质有成千上万种，而你拥有一百个人的样本。你该如何对它们进行计数和比较呢？你无法看到它们，也不能简单地将它们放在天平上称量。在如此大规模的研究中，为每个样本中的每种蛋白质都贴上一个微小的化学标签，其成本和复杂性将是难以承受的。正是在这里，无标记定量（LFQ）的简洁优雅之处发挥了作用。其核心思想既优美又强大：如果我们能找到一个与蛋白质数量成正比的属性，我们就不需要标记它们。这个属性就是它们在一种叫做质谱仪的机器中的信号强度。

核心原理：强度即数量

为了理解这一点，让我们跟随一个蛋白质的旅程。首先，我们取一个复杂的生物样本，比如血浆，然后用一种酶（通常是胰蛋白酶）将所有的蛋白质切成更小、更易于处理的片段，称为肽段。这会产生一种极其复杂的混合物，包含成千上万种不同的肽段。

为了解析这种混合物，我们不能直接将其注入质谱仪。这就像试图同时收听所有广播电台——只会得到噪音。相反，我们首先使用一种称为液相色谱（LC）的技术来分离这些肽段。你可以把这想象成一根又长又窄的、有粘性的管子。当肽段混合物流经它时，不同的肽段与管子内壁的相互作用程度不同。有些粘得更紧，有些则不那么紧。这导致它们在不同的时间点流出管子，这个属性被称为它们的保留时间。

当每个肽段流出时，它会飞入质谱仪（MS），质谱仪会做两件事：它测量肽段的质荷比（ $m/z$ ），这就像一个分子指纹；同时，它测量在那一瞬间到达检测器的该肽段离子的数量。这就是信号强度。

如果我们追踪一个特定肽段——一个具有唯一 $m/z$ 值的肽段——在整个LC运行过程中的强度变化，我们会得到一个优美的图表，称为提取离子流图（XIC）。这张图大部分是平坦的，直到我们感兴趣的肽段离开色谱柱的那一刻，强度会上升到一个峰值，然后随着肽段通过检测器而回落。所有基于强度的LFQ的基本假设是，一个肽段产生的总信号与其在原始样本中的含量成正比。这个总信号不仅仅是峰高，而是该峰的整个曲线下面积（AUC）。毕竟，一个更宽的峰代表同一个肽段在更长的时间内洗脱出来，这仍然贡献于其总量。峰面积捕捉了峰高（顶点的强度）和峰宽，为我们提供了一个代表肽段丰度的单一数值。

在数学上，如果我们将色谱峰近似为一个高斯形状，其在时间 $t$ 的强度 $I(t)$ 可以由 $I(t) = I_{0}\exp(- \frac{(t - t_{0})^{2}}{2\sigma^{2}})$ 描述，其中 $I_{0}$ 是峰顶强度， $\sigma$ 与峰宽有关。该曲线下的面积为 $A = I_{0}\sigma\sqrt{2\pi}$ 。这个简单的公式优美地说明了总量是信号在其最大值时有多“亮”以及它持续多“长”的函数。这个面积，这个积分信号，就成了我们定量的代理。

两种计数方式：峰面积 vs. 谱图计数

虽然使用MS1峰面积是“称量”肽段信号最直接的方式，但这并非唯一的方法。质谱仪通常在一种称为数据依赖采集（DDA）的模式下运行，这催生了第二种策略：谱图计数。

在DDA模式下，仪器执行一个连续的循环：它首先对当前正在洗脱的所有肽段进行快速快照（一次MS1扫描），识别出最强的肽段离子，然后逐一隔离这些“明亮”的离子，并将它们打碎成碎片，以获得第二个更详细的谱图（MS2扫描）。正是这个MS2谱图让我们能够通过与数据库匹配，自信地鉴定出肽段的氨基酸序列。

谱图计数只是简单地统计一个肽段的母体蛋白通过MS2扫描被鉴定的次数。逻辑很简单：更丰富的蛋白质会产生更多的肽段，这些肽段会更强，因此会更频繁地被选中进行碎裂。这就像在我们河流的比喻中钓鱼；某种类型的鱼越多，你钓到它的次数就越多。

然而，这种方法有一个关键的局限性：饱和。质谱仪每秒只能执行有限次数的MS2扫描。如果一个肽段极其丰富，那么每次仪器寻找目标时，它都会被选中进行碎裂。此时，即使该肽段的丰度增加一倍，为其计数的谱图数量也无法增加。计数已经饱和。相比之下，MS1 peak面积在更宽的范围内与丰度保持线性增长。因此，基于MS1的AUC积分通常被认为在定量上更准确、更精确，特别是对于变化显著的蛋白质。

细节决定成败：从原始信号到有意义的数字

将信号面积与数量关联起来的想法很优雅，但要让它在真实、混乱的生物数据中奏效，则是分析化学和计算机科学的一项英雄壮举。从原始信号到可靠定量数字的道路上充满了挑战，必须通过巧妙的算法和精心的实验设计来克服。

首先，是寻找特征的挑战。一张XIC图并非在寂静背景上的一条干净、完美的曲线。它是化学和电子噪声海洋中的一条锯齿线。需要复杂的算法来挑出真正的峰，定义它们的边界，并正确计算它们的面积，通常使用像梯形法则这样的数值方法[@problem-gittid:3712585]。而且事情可能会出错。一个色谱峰可能不是对称的；它可能有一个长长的“拖尾”。如果你的算法只对峰的主体进行积分，它会系统地低估真实面积。更糟糕的是，一个完全不同的分子可能恰好在同一时间以相似的质量洗脱出来，其信号可能会被错误地加到你的肽段面积上，从而人为地夸大了其测量丰度。

其次，我们必须面对质谱分析的一个基本事实：并非所有肽段生而平等。在一次运行 $r$ 中观测到的肽段 $p$ 的信号面积，我们称之为 $A_{p,r}$ ，不仅仅取决于它的真实摩尔量 $n_{p,r}$ 。它更准确的模型是 $A_{p,r} \approx k_r \cdot \epsilon_p \cdot n_{p,r}$ 。这个方程揭示了两个混淆因素：

$\epsilon_p$ ：肽段特异性电离效率。有些肽段由于其化学性质，更容易成为离子并在质谱仪中“发光”。这种效率在不同肽段之间可能相差几个数量级。这是你不能使用原始LFQ强度在同一个样本中说“肽段X比肽段Y丰富10倍”的最重要原因。然而，对于给定的肽段， $\epsilon_p$ 是一个常数。因此，当我们在不同样本中比较同一个肽段时，这一项在比率中被消掉了，使得LFQ非常适合相对定量。
$k_r$ ：运行特异性仪器响应。质谱仪是一种敏感的野兽。它的性能可能会日复一日地轻微漂移，甚至在一个长实验的开始和结束之间也会有变化。一次运行可能全局上比另一次“亮”10%。这种技术偏差会影响该次运行中的所有肽段，必须加以校正。

这就引出了第三个，也许是最大的挑战：在数十次甚至数百次独立的LC-MS运行之间进行公平比较。两个关键机制使其成为可能：归一化和对齐。

归一化是针对运行特异性偏差 $k_r$ 的统计修正。最常用的方法，中位数归一化，基于一个简单而有力的假设：在一个全局蛋白质组学实验中，大多数蛋白质在被比较的条件之间不会发生变化。因此，任何给定运行中所有肽段中位强度的全局性偏移很可能是由技术变异而非生物学变异引起的。通过为每次运行计算一个简单的缩放因子，强制它们的中位数相等，我们可以有效地消除这种样本上样或仪器漂移的偏差，将所有运行置于一个公平的竞争环境中。

对齐是为了解决肽段保留时间并非完全稳定的问题。在一次运行中，它可能在30.2分钟时离开LC柱，而在下一次运行中，则在30.5分钟。为了比较AUC，我们需要绝对确定我们正在比较所有100次运行中的同一个特征。这通过保留时间校正来实现。算法使用一组标志性肽段（可以是高丰度的内源性肽段或加入的标准品）来构建一个数学函数，该函数拉伸和压缩每次运行的时间轴，以使其与参考运行对齐。像局部估计散点平滑（LOESS）这样的复杂非线性模型在校正真实色谱中发生的复杂、非线性漂移方面表现出色，能够将90分钟梯度运行中的残留时间误差减少到仅几秒钟。

最后，我们如何处理缺失值？一个低丰度的肽段在某些样本中被检测到，但在其他样本中低于仪器的检测限，这是很常见的。简单地将其视为“零”在统计上是灾难性的，因为它错误地暗示了完全不存在，并可能产生人为的巨大倍数变化。这种类型的缺失不是随机的；它是有信息量的。它告诉我们该肽段的丰度很低。现代工作流程通过插补来处理这个问题——不是用零来填补缺失值，而是用一个从模拟仪器噪声基线附近的低强度信号的统计分布中抽取的小数值来填充。这是一种更诚实、统计上更稳健的方式来处理仪器灵敏度限制这一不可避免的现实。

从肽段到蛋白质：最后的谜题

在肽段层面完成了所有这些艰苦的工作之后，还有最后一步：将信息汇总到蛋白质层面。这通常通过对属于某一给定蛋白质的所有唯一肽段的强度求和来完成。但生物学给我们带来了最后一个难题：共享肽段问题。当一个单一的肽段序列可能来自两种不同但高度相似的蛋白质（例如，同工酶或同一蛋白家族的成员）时，该怎么办？

这个共享肽段的强度属于哪个蛋白质？没有完美的答案，只有实用的解决方案。最常见的一种是剃刀肽段原理。这是一种“赢家通吃”的方法：共享肽段的强度完全分配给由最多独特、无歧义肽段证据支持的蛋白质组。这种启发式方法使我们能够量化更多的蛋白质，并有助于稳定测量结果，但它是一个必要的妥协，在某些情况下可能会使蛋白质家族的定量产生偏差[@problem_tittid:4600207]。

归根结底，无标记定量是一段旅程。它始于一个简单、直观的物理原理——更多的物质产生更强的信号。但它在复杂的生物学世界中的成功应用，证明了多学科方法的力量，它结合了分析化学、高精度工程和一套复杂的统计算法流程。正是这种结合，将真空中离子的微弱光芒转化为关于健康与疾病分子基础的深刻见解。

应用与交叉学科联系

在我们之前的讨论中，我们探讨了无标记定量的基本原理——可以说是我们如何说服质谱仪在不标记分子的情况下进行计数的“语法”。我们学习了如何解读色谱图的曲线，以及比较信号强度的逻辑。但是，学习语法只是第一步。真正的魔力始于我们用它来写诗、讲故事。现在，我们将看到无标记定量（LFQ）在广阔的科学领域中书写的诗篇。

这项技术不仅仅是一种计数工具；它是一种新的镜头。几个世纪以来，生物学家描绘细胞的静态部分，就像古代制图师绘制新大陆一样。但是LFQ让我们能将这片大陆视为一个活生生的、会呼吸的世界。我们可以观察蛋白质群体的起落，见证细胞机器在实时中的复杂舞蹈，并窃听那些构成生命本质的化学对话。我们从问“那里有什么？”转向问“有多少？”，“它如何变化？”，甚至“它在做什么？”。让我们踏上一段旅程，看看这种强大的观察方式如何彻底改变了我们所能发现的一切。

根本问题：“更多还是更少？”

在本质上，许多实验生物学都可以归结为一个简单的、孩童般的问题：如果我改变一件事，还有什么会随之改变？想象你有两种酵母菌株，这种不起眼的生物为我们带来了面包和啤酒。一种是普通的野生型酵母，另一种是你对单个基因进行了修改的突变体。你想知道这个单一的改变对细胞整个蛋白质劳动力产生了什么影响。

这是LFQ最基本应用的完美舞台。通过从野生型和突变型酵母中提取所有蛋白质，将它们消化，并通过我们的质谱仪进行分析，我们可以生成它们蛋白质组的全局快照。通过比较两种样本之间每个肽段的峰面积，我们可以看到哪些蛋白质变得更丰富，哪些变得更稀少。

当然，这里有一个微妙之处。当你准备样本时，你永远无法完全确定你为两次运行加载到机器中的总蛋白质是完全相同的量。微小的差异可能会使一个样本中的所有蛋白质看起来都更丰富，这是具有误导性的。为了解决这个问题，科学家们使用了一个巧妙的技巧：归一化。他们找到一个“管家”蛋白，其丰度已知是极其稳定、不受突变影响的。可以把它想象成管弦乐队中一个总是以相同音量演奏的音乐家。通过测量我们感兴趣的蛋白质相对于这个内标的丰度，我们可以校正任何样本上样量的差异。这就像调整管弦乐队的整体音量，以判断小号手是否真的吹得更响，还是有人只是调高了总音量。这种简单的比较行为，即询问“更多还是更少？”，是分子生物学无数发现的基石。

测量的艺术：在嘈杂的世界中选择正确的工具

当我们涉足更复杂的系统时，我们发现“如何”测量变得与“测量什么”同样重要。现实世界是一个嘈杂的地方，细胞内部也不例外。想象一下，试图在拥挤、混乱的人类血浆环境中寻找一种疾病的潜在生物标志物——一种水平仅有轻微差异的蛋白质。这是一项艰巨的任务，就像试图在拥挤的体育场里听到一个人的低语。为了成功，我们需要成为我们测量工具的大师。

在LFQ中，有两种主要的定量哲学。第一种是谱图计数。这就像站在路边，计算你看到特定型号汽车经过的次数。它简单直观。你看到它的次数越多，它可能就越常见。第二种方法是基于MS1强度的定量。这更像是架设一台相机，对每一辆经过的汽车，测量其前灯的精确亮度。

哪种更好？这取决于你在寻找什么。对于复杂样本中的低丰度蛋白质——我们体育场中低语的人——谱图计数可能会有问题。因为这种蛋白质很稀有，仪器可能仅凭运气只有一次机会鉴定它，或者根本没有。这是因为质谱仪在其数据依赖模式下，不断地在选择要碎裂和鉴定哪些肽段，并且偏向于那些“最响亮”的。0或1的计数是一个非常粗糙且高方差的估计。这种“罕见事件”计数遵循泊松统计，其中你的计数值的不确定性与计数值本身一样大，这对于低计数值时的精确度来说是灾难性的。

另一方面，测量MS1强度可能要灵敏得多。即使一个肽段从未被选中进行碎裂（导致谱图计数为零），它仍然在初始的全扫描中产生信号。通过整合这个峰下的面积，我们得到了一个连续、更稳定的丰度测量值。这就是为什么对于像血浆中生物标志物发现或量化稀疏分布的磷酸化肽段（它们充当细胞开关）这样具有挑战性的任务，通常首选基于强度的方法。它们让我们有更好的机会在人群的喧嚣中捕捉到那细微的低语。

然而，没有方法是完美的。每个测量设备都有有限的动态范围。检测器可能会被极其丰富的蛋白质饱和，就像你的眼睛被太阳晃花一样；在那时，你无法判断它是否变得更亮了。同样，谱图计数也会饱和，因为你计数的速率是有限的；一旦一个非常丰富的肽段在仪器的每个循环中都被选中进行鉴定，即使其真实丰度继续增加，其计数也无法再升高。理解这些物理和统计上的局限性是定量科学的真正艺术所在。

超越丰度：揭示生命的微妙之处

到目前为止，我们一直在讨论计数整个蛋白质。但一个蛋白质的故事远比其种群规模丰富得多。蛋白质不断地被化学修饰物装饰——如磷酸化、泛素化或糖基化——这些修饰物充当开关、刻度盘和标签，深刻地改变着它们的功能。LFQ与巧妙的生物化学方法相结合，使我们能够以惊人的精度量化这些修饰。

考虑一个糖蛋白，一种装饰有复杂糖链（称为聚糖）的蛋白质。一个关键问题不仅是“这种蛋白质有多少？”，还有“这些蛋白质分子中，在特定位点实际携带聚糖修饰的比例是多少？”。这就是位点占有率的问题。

为了解决这个问题，科学家们设计了一种非常优雅的策略。他们取一份蛋白质样本，并将其分成两份。第一份直接进行分析。在第二份中，他们加入一种名为PNGase F的酶，它有一项非常具体的工作：切掉任何N-连接的聚糖。但在这样做的同时，它留下了一个微小、永久的标记。聚糖附着的那个天冬酰胺氨基酸（ $N$ ）被化学转化为天冬氨酸（ $D$ ）。它留下了一个“疤痕”。

现在，科学家可以使用LFQ来测量两种肽段的强度：来自第一次实验的原始、未修饰的肽段，以及来自第二次实验的“疤痕”肽段。原始肽段的量与未被糖基化的蛋白质比例成正比。疤痕肽段的量与被糖基化的蛋白质比例成正比。通过简单地取疤痕强度与两者强度之和的比值，我们就可以直接测量出聚糖的占有率。这是一个美丽的例子，说明一个定量工具在创造性地使用时，如何能够回答关于分子状态的复杂定性问题。

从实验室到临床：LFQ在医学与健康中的应用

一个科学工具的真正力量，在于它帮助我们理解和对抗人类疾病时显现出来。无标记定量不再局限于基础研究实验室；它已成为医学领域不可或`缺的发现引擎。

寻找新武器：寻找通用疫苗

考虑一下为像肺炎链球菌这样的细菌制造疫苗所面临的挑战。这种细菌是伪装大师；它用多糖荚膜包裹自己，而这种“外衣”有几十种不同的类型，即“血清型”。针对一种血清型的疫苗可能对另一种无效。我们如何才能找到一个对所有血清型都有效的通用疫苗靶点呢？

在这里，LFQ提供了一个绝妙的策略。科学家们可以比较正常的、有荚膜的细菌与一个不能产生荚膜的突变株。使用一种只标记细胞表面蛋白质的化学标记技术，然后进行LFQ，他们可以提出问题：无论外衣是否存在，哪些蛋白质在表面是可及的？通过比较表面蛋白质组，他们可以识别出那些持续暴露的蛋白质。然后，通过检查这些候选蛋白在许多不同菌株中的基因序列，他们可以找到那些高度保守的——即细菌中不发生变化的部分。这样一种既始终可及又遗传稳定的蛋白质，就成为广谱保护性疫苗的理想靶点。这就是理性疫苗设计，由蛋白质组学的精确视野所引导。

解码疾病的战场

我们的身体是生态系统。例如，口腔是数百种细菌的家园，其中大多数与我们和谐共存。但在像牙周炎这样的疾病中，这种和谐被打破，一场毁灭性的战争随之而来。LFQ让我们能够成为这个微观战场上的战地记者。

一种称为“降解组学”的专门技术利用LFQ来识别正在使用的分子武器。每当一个蛋白质被蛋白酶——一种分子剪刀——切割时，就会产生一个新的末端或称之为末端。通过捕获和鉴定来自疾病部位的这些新形成的蛋白质片段，我们可以推断出活跃的蛋白酶的特异性。数据可以告诉我们，损伤是由我们自身免疫细胞的蛋白酶（友军误伤）还是由致病菌部署的蛋白酶造成的。在牙周炎中，这类研究揭示了一个毁灭性的反馈循环：细菌蛋白酶与宿主酶一起撕碎牙龈组织，这反过来又产生了一个富含肽段的肉汤，而这正是驱动破坏的那些致病性、不解糖的（讨厌糖的）细菌的完美食物来源。我们不仅仅是在观察疾病；我们正在绘制其补给线。

生命的韧性：见证细胞适应

也许LFQ带来的最深刻的见解，来自于它教给我们的关于生命的韧性和适应性。考虑一种悲剧性的遗传病——慢性肉芽肿病（CGD）。CGD患者的免疫细胞缺少一个关键武器：NADPH氧化酶，这种酶能产生一波活性氧（ROS）来杀死入侵的微生物。没有这种“氧化爆发”，患者会遭受严重、反复的感染。

这些有缺陷的细胞会怎么做？它们只是简单地失效吗？LFQ给出了一个惊人的答案。通过比较CGD患者和健康个体巨噬细胞的蛋白质组，科学家发现，当细胞被剥夺其主要武器时，它会启动一个精彩且协调的“B计划”。数据显示，CGD细胞显著增加了整个一套替代防御系统的产量。它们开始大量产生一氧化氮，这是另一种有效的抗微生物分子。它们增强了自噬，即细胞的“自我吞噬”过程，以便更好地在密封的隔室中捕获和消化细菌。它们激活了能够螯合铁等必需金属的蛋白质，试图饿死入侵者。它们还大量生产抗菌肽，这些分子能直接在细菌膜上打孔[@problem_tittid:5117480]。

这不只是一两个蛋白质在变化；这是细胞防御网络的整个逻辑被重新编程。这是生命系统令人难以置信的可塑性的证明。LFQ让我们能够见证这种适应，不是作为一个抽象的概念，而是作为一个用蛋白质语言书写的、详细的、定量的现实。我们一个分子一个分子地看到，生命是如何在逆境中为生存而战的。

从简单地计数酵母中的蛋白质，到复杂地绘制人类疾病通路，无标记定量为我们提供了前所未有的视角来观察生命的机器。它是一个威力巨大的工具，但更重要的是，它是一种新的观察方式。它持续揭示着细胞这个复杂、动态世界中隐藏的逻辑、意想不到的联系和深刻的美丽。