蛋白质形式

玻尔百科

核心要点

单个基因通过可变剪接和翻译后修饰（PTM）等机制，可以产生大量称为蛋白质形式的功能性分子。
自上而下蛋白质组学分析完整的蛋白质形式，保留了关于共存 PTM 的关键信息，而这些信息在传统的自下而上方法中会丢失。
高分辨率质谱法和像 ETD 这样的温和裂解技术对于区分和表征差异细微或易碎的蛋白质形式至关重要。
研究蛋白质形式对于理解复杂的生物过程至关重要，包括通过组蛋白密码进行的基因调控、药物作用和进化适应。

引言

虽然中心法则为生命提供了基本蓝图，但它并未完全捕捉到执行细胞功能的蛋白质的巨大复杂性。单个基因通常产生的不是单一分子，而是多种不同的分子实体。本文通过引入蛋白质形式（proteoform）的概念来探讨这种复杂性：蛋白质形式是蛋白质特定的、功能齐全的版本，包含其所有的修饰。通过理解蛋白质形式，我们可以在静态的遗传密码与动态的细胞现实之间架起一座桥梁。在接下来的章节中，您将踏上一段从基础到应用的旅程。第一章“原理与机制”将揭示这种分子多样性是如何产生的，并探讨使我们能够观察到它的复杂分析工具，如质谱法。随后，“应用与跨学科联系”将展示其重要性，揭示蛋白质形式在从基因调控、药物开发到物种间进化军备竞赛等各个方面的关键作用。

原理与机制

在我们理解生命机器的旅程中，我们常常从中心法则的优雅简洁开始：DNA制造RNA，RNA制造蛋白质。几十年来，这条线性路径一直是我们指路的明灯。但当我们仔细观察，深入细胞这个繁忙的工厂时，我们发现这个简单的蓝图展现出一个令人惊叹的复杂现实。由单个基因编码的“蛋白质”根本不是一个单一的实体。相反，它是一个起点，由此衍生出庞大而闪耀的分子参与者星群。我们的故事真正开始于此，始于蛋白质形式（proteoform）的概念。

蛋白质形式的剖析

想象一个基因，它不是构建一个物体的简单指令，而是一套复杂的计划，包含多种选项和一份详尽的可能收尾工序清单。一个蛋白质形式是最终的、特定的产物——在细胞中执行功能的、完全组装和修饰的分子。它由两方面定义：其确切的氨基酸序列以及附着其上的完整化学修饰模式。

这是一个至关重要的区别。我们常说的蛋白质异构体，是指蛋白质氨基酸骨架的不同版本，通常源于遗传变异或一种称为可变剪接的过程。但一个异构体仅仅是光秃秃的底盘；它没有指定涂装、引擎调校或额外功能。而蛋白质形式是整辆车，准备好驶出生产线。一个异构体可以产生数百甚至数千种不同的蛋白质形式，每一种都是一个独特的分子公民，扮演着自己的角色。

多样性的组合爆炸

这种惊人的多样性从何而来？它源于细胞做出的一系列层级选择，从有限的遗传模板中创造出可能性的“组合爆炸”。

首先，细胞可以构建不同的骨架。在可变剪接过程中，细胞会编辑从基因转录出的初始RNA信息。可以把基因序列想象成由称为外显子的片段组成，有点像乐高积木。有些积木总是被使用（组成型外显子），但其他则是可选的。细胞可能会在两个积木中选择一个（互斥外显子），或者决定是否包含或跳过某个积木（盒式外显子）。一个只有几个可选片段的简单基因可以迅速生成多种独特的mRNA蓝图，从而产生多种蛋白质异构体。

但复杂性的真正爆炸发生在蛋白质骨架建成之后。细胞随后会用种类惊人的化学标签来修饰蛋白质，这些标签被称为翻译后修饰（PTM）。这里可以加上一个磷酸基团（磷酸化），那里可以加上一个乙酰基（乙酰化），或者一个名为泛素的小蛋白可以附着在另一个位点（泛素化）。这些不是随意的装饰；它们是调控蛋白质功能、位置和寿命的控制开关、刻度盘和杠杆。

PTM的力量在于其组合性。让我们考虑一个简单的情况。假设一个蛋白质有 $n$ 个不同的位点，每个位点可以被修饰，也可以不被修饰。可能有多少种蛋白质形式呢？对于第一个位点，有两种选择。对于第二个位点，也有两种选择，且与第一个位点无关。按照这个逻辑，不同蛋白质形式的总数是 $2 \times 2 \times \dots \times 2$ ，也就是 $2^n$ 。这种指数关系是蛋白质组复杂性的引擎。一个仅有10个此类位点的蛋白质可以以 $2^{10} = 1024$ 种不同的蛋白质形式存在。一个有20个位点的蛋白质则会爆炸到超过一百万种可能性！

现在，让我们结合这些机制。考虑一个假设的单一基因，它可以通过2种不同的方式进行剪接。由此产生的蛋白质有三个可以被磷酸化的位点（每个位点2种选择），一个可以不被修饰、单泛素化或多泛素化的位点（3种选择），以及两个可以被乙酰化的位点（每个位点2种选择）。独特蛋白质形式的总数是所有这些独立选择的乘积： $2 \times (2^3) \times 3 \times (2^2) = 192$ 种不同的分子机器，全部源于一个基因。这才是蛋白质组真实而广阔的图景。

观察的挑战：从整体到部分，再回到整体

如果一个基因能产生如此众多的蛋白质形式，我们怎么可能希望能研究它们呢？我们如何对这个分子城市进行普查？我们的主要工具是质谱法，这项技术就像一个极其灵敏的分子秤。但我们如何使用这个秤，引出了两种截然不同的理念：自上而下和自下而上蛋白质组学。

自下而上蛋白质组学：一袋肽段

最常见的方法，自下而上蛋白质组学，是一种解构策略。想象一下你想了解一个车队。自下而上的方法是把每辆车拆成螺母、螺栓和面板等零件，把它们全扔进一个大堆里，然后识别并清点所有零件。在蛋白质组学中，我们通过使用像胰蛋白酶这样的酶，将每个蛋白质切成一组可预测的、称为肽段的小片段。然后质谱仪识别这些肽段。

这种方法在识别哪些基因被表达为蛋白质方面非常强大。但它伴随着一个根本性的、不可逆转的信息损失。通过将蛋白质切碎，我们失去了上下文。我们可能会找到一个带有磷酸基团的肽段和另一个带有乙酰基的肽段，但我们已经破坏了可以告诉我们这两种修饰是否曾同时出现在同一个蛋白质分子上的证据。我们只剩下“一袋肽段”，而推断原始蛋白质形式的任务变成了一个巨大且往往不可能完成的谜题。

为了解决这个谜题，科学家们使用计算策略，如简约原则。根据观察到的肽段，我们寻找能够解释所有证据的最小蛋白质形式集合。这有点像侦探在犯罪现场找到线索，并试图构建一个符合所有事实的最简单叙述。这是一个聪明的推断，但不是直接的观察。

这种上下文的缺失具有严重的实际后果。想象一个蛋白质，其总量在两种条件下保持不变，但其磷酸化水平发生巨大变化。如果我们天真地使用未修饰肽段的信号来测量总蛋白，我们会错误地得出蛋白质丰度发生变化的结论，而实际上只有其修饰状态发生了改变。同样，质谱仪检测肽段的效率在肽段被修饰后可能会改变，导致对PTM水平的测量产生偏差。在自下而上实验中获得总蛋白量的稳定测量的唯一方法是，只使用那些在所有蛋白质形式中都共有且相同的肽段。

自上而下蛋白质组学：看到全貌

另一种选择是自上而下蛋白质组学，其理念很简单：让我们直接观察完整的蛋白质形式，而不将它们切碎。这保留了所有PTM在其天然组合中的状态，使我们能够测量整个分子的精确质量，并准确确定哪些修饰共同存在。

然而，这在技术上要求很高。来自细胞的样品包含着由数千种蛋白质形式组成的令人眼花缭乱的复杂混合物。将它们一次性全部注入质谱仪会产生无法解读的嘈杂信号。为了处理这个问题，我们首先使用液相色谱（LC）。LC系统作为一个优雅的分类机制，根据蛋白质形式的物理和化学性质（如大小或粘性），随着时间的推移分离复杂的混合物。这使得一股更易于管理的分子流进入质谱仪，然后质谱仪可以逐一或小批量地分析它们。

即使采用这种方法，在解读数据方面仍然存在挑战。当我们看到一个较小蛋白质的信号时，我们必须问一个关键问题：这是一个在细胞中存在的、真正的、生物学上截短的蛋白质形式，还是仅仅是在质谱仪内部从一个更大的蛋白质上断裂下来的碎片（一种称为气相碎片的人工产物）？区分它们的关键在于色谱数据。一个真正的蛋白质形式，作为原始样品中的一个独特分子，会有自己独特的洗脱时间——在排序队列中有自己的位置。然而，气相碎片是其母体分子的产物；它只在其母体分子进入质谱仪时出现。因此，它的信号会与母体分子的信号完全共洗脱，或称“影子效应”，自身没有独立的色谱峰。

最后，在这个高通量发现的世界里，我们如何保持科学的严谨性？我们如何知道数千个鉴定结果中哪些是真实的，哪些是统计上的幻影？科学家们采用一种聪明的策略，使用目标-诱饵方法来估计假发现率（FDR）。我们不仅在所有已知的、真实的蛋白质形式数据库（目标）中搜索我们的数据，还在一个由虚假的、无意义的蛋白质形式组成的数据库（诱饵）中进行搜索。诱饵的“命中”数量为我们提供了一个稳健的统计估计，即我们的目标命中中有多少可能是假阳性。这一原则是我们确保蛋白质形式宇宙图谱可靠性的基石。

从遗传蓝图到功能性蛋白质形式的路径，是组合创造力的杰作。理解这种复杂性不仅仅是一项学术活动；它是理解健康与疾病的关键，因为正是这些特定的、完全形成的蛋白质形式，执行着生命动态的舞蹈。

应用与跨学科联系

在上一章中，我们探索了蛋白质形式的基本原理，发现执行生命活动的蛋白质并非单一的实体，而是一个由相关但又各不相同的成员组成的耀眼的集合。我们看到，单个基因编码的不是单个蛋白质，而是一个潜在的蛋白质形式家族。现在，我们提出科学家能提出的最重要的问题：那又怎样？

我们为什么要关心这个看似巴洛克风格的复杂层次？这些分子的细节在生物学的宏大舞台上，在有机体的稳健性中，在疾病的悲剧中，真的重要吗？你会发现，答案是响亮的“是”。蛋白质形式的研究不是在编目奇珍异品；它是解锁对生命本身更深刻、更动态理解的关键。在这里，基因组的静态蓝图被翻译成细胞充满活力、不断运动和响应的机器。让我们探索这些分子演员占据中心舞台的广阔领域。

生命密码的再审视：多样性的爆炸

几十年来，分子生物学的中心法则——DNA制造RNA，RNA制造蛋白质——一直是我们的指路明灯。这是一个强大而优雅的框架，但蛋白质形式的概念邀请我们去欣赏在剧本和表演之间发生的不可思议的艺术创作。自然似乎是组合发明的宗师，利用有限的基因集来生成种类惊人的功能分子。

其最深刻的策略之一是可变剪接。想象一个基因不是一个单一的食谱，而是一本包含许多可选成分和替代步骤的模块化食谱书。通过选择包含或排除某些部分（外显子），或从一系列互斥选项中选择一个，单个基因可以产生数百甚至数千种不同的蛋白质异构体。这不是一个随机过程；它是一种精巧调控的机制，用于产生功能多样性。例如，拥有数万亿个突触连接的人类大脑面临着一个巨大的布线问题。区区约20,000个基因如何可能协调如此的复杂性？部分答案在于像neurexins这样的基因，它们对突触识别至关重要。通过沿着单个neurexin基因多个位点的可变剪接选择的组合级联，可以生成一个巨大的不同蛋白质形式库，每个都可能充当一个独特的分子“条形码”，帮助指定和稳定神经回路。这不仅仅是构建复杂大脑的技巧。在不起眼的缓步动物（tardigrade），或称水熊虫中，其在极端脱水（隐生）条件下生存的能力可能依赖于类似的策略。单个基因可以被剪接成成千上万种不同的蛋白质异构体，也许这就创造了一个多功能的分子工具包，其中的结构蛋白可以在各种胁迫条件下保护细胞的结构。

多样化的脚步甚至不止于此。它一直延续到蛋白质合成的工厂车间：核糖体。当核糖体沿着信使RNA（mRNA）转录本扫描时，它在“寻找”一个开始翻译的地方。虽然教科书上的起始信号是密码子 $AUG$ ，但在某些条件下，细胞可以在其他“近同源”密码子如 $CUG$ 或 $GUG$ 处启动合成。这会产生具有不同起始点和不同N末端序列的蛋白质形式。细胞甚至可以调节核糖体的“挑剔”程度。像真核生物起始因子1（eIF1）这样的因子充当了保真度监视器；高水平的eIF1使核糖体更加严格，迫使其忽略较弱的起始信号，去寻找经典的 $AUG$ 。降低这种严格性则会引发蛋白质形式多样性的爆发，这表明细胞可以通过简单地调整翻译规则本身来实时调整其蛋白质库。

分析挑战：读取分子信息

描述这种多样性是一回事，测量它则是另一项完全不同的挑战，这项挑战已将科学家推向物理学和工程学的前沿。这项侦探工作的主要工具是自上而下质谱法，这种方法本质上使我们能够以非凡的精度称量单个、完整的蛋白质分子。

基本思想非常简单。如果我们知道一个蛋白质基于其氨基酸序列的理论质量，并且我们测量到一个蛋白质形式比理论值重了，比如说， $79.97$ 道尔顿，我们就可以自信地推断它获得了一个磷酸基团——这是细胞信号传导中一种普遍的修饰。自上而下质谱图中的每个峰代表一个独特的蛋白质形式，是细胞中存在的独特分子物种的快照。当然，质谱仪的原始数据给我们的是质荷比（ $m/z$ ），而不是直接的质量。但通过观察同一个分子带有不同数量的电荷，我们可以轻松地解出电荷和真实的潜在质量，将一系列峰值转化为精确的分子量测量[@problem-id:2069263]。

但自然的精妙之处常常要求更多。如果两种不同的修饰组合产生的蛋白质形式质量几乎相同怎么办？例如，一个被三个乙酰基修饰的蛋白质（化学式变化： $\text{C}_2\text{H}_2\text{O}$ ）的总质量与一个被九个甲基修饰的蛋白质（化学式变化： $\text{CH}_2$ ）非常接近。我们如何区分它们？在这里，我们必须欣赏Albert Einstein的天才。他著名的方程 $E = mc^2$ 意味着原子的质量不仅仅是其质子和中子质量的总和；一小部分质量作为结合能“损失”了。因为不同的原子核有不同的结合能，一个碳原子的重量并不完全等于十二个氢原子的重量。这种微小的“质量亏损”意味着我们那两个几乎相同的蛋白质形式并非具有完全相同的质量。差异是微乎其微的——在一个30,000道尔顿的蛋白质上也许只有十分之一个道尔顿。要区分它们，需要一台分辨率高达数十万的质谱仪，能够分辨出差异小于275,000分之一的两个质量。这就是傅里叶变换离子回旋共振（FT-ICR）质谱仪等仪器的领域，是生物学与基础物理学协同作用的明证。

即使是更高的分辨率也无法解决所有问题。一些修饰，如磷酸化和硫酸化，不仅质量几乎相同（仅相差约 $0.0095$ Da），而且非常脆弱。标准裂解技术（用于确定修饰位置的过程）中使用的能量碰撞会直接将它们撞掉，从而破坏我们寻求的信息。为了解决这个问题，科学家开发了更温和的“基于电子”的裂解方法，如电子转移解离（ETD）。这项技术在保持精细修饰在片段上完整的同时，切割蛋白质的骨架，使我们能够既识别细微的修饰，又精确定位其在蛋白质链上的位置。

从分子到医学、生态学和进化

有了这些强大的工具，我们现在可以着手解决生物学中一些最深刻的问题。

也许最优雅的应用是破解组蛋白密码。组蛋白是将我们的DNA打包成称为染色质的紧凑结构的蛋白质。它们被大量各种各样的化学修饰所点缀。组蛋白密码假说认为，单个组蛋白尾部上这些标记的特定组合决定了其下的基因是开启还是关闭。这是细胞的操作系统。传统的“自下而上”蛋白质组学在分析前将蛋白质切成小肽段，这种方法通过分离曾经在同一分子上的修饰而破坏了这段密码。这就像试图通过看一堆杂乱的词语来理解一个句子。自上而下蛋白质组学通过分析完整的组蛋白，直接读取组合密码。它让我们看到哪些修饰共同出现，为我们理解在健康与疾病中（从发育到癌症）调控基因表达的机制提供了前所未有的洞察。

此外，常常是蛋白质形式图景的变化讲述了最有趣的故事。通过使用像SILAC（细胞培养中氨基酸稳定同位素标记）这样的巧妙标记技术，我们可以培养两群细胞，一群“轻”，一群“重”，并用药物处理其中一群。通过将两者的蛋白质形式混合并用自上而下质谱法进行分析，我们可以精确量化每一种蛋白质形式的丰度如何响应药物而变化。这是药理学的未来——不仅仅是看药物是否有效，而是通过改变细胞功能机器的平衡来了解它如何起作用。当然，要得到准确的数字并非易事。来自不同蛋白质形式的信号可能会重叠，就像波浪相互拍打一样。需要严谨的数学模型来去卷积这些复杂的光谱并提取每个物种的真实丰度，确保我们的生物学结论建立在坚实的定量基础之上。

最后，蛋白质形式不仅仅是细胞机器中的齿轮；它们是进化的根本。思考一下昆虫与我们用来控制它们的杀虫剂之间的进化军备竞赛。在一群农业害虫中，出现了一种对拟除虫菊酯类杀虫剂的显著抗性。原因不是一个新基因，而是对一个现有的、编码电压门控钠通道（杀虫剂的目标）的基因进行可变剪接的微妙转变。易感昆虫主要产生一种“alpha”异构体，杀虫剂能与之紧密结合。而抗性昆虫则改变了其剪接机制，主要产生一种“beta”异构体，它与杀虫剂的结合非常弱。尽管通道蛋白的总量相同，仅仅改变两种蛋白质形式的比例就极大地改变了生物体的生理机能，使毒药失效。这是一个强有力的证明，说明分子水平上的变化——一个偏爱一种蛋白质形式而非另一种的决定——可以产生宏观后果，其影响波及生态系统和经济。

从我们大脑错综复杂的布线到地球上最顽强生物的生存策略，从我们基因的调控到新性状的演化，生命的故事是用蛋白质形式的语言书写的。阅读这种语言，就是以其真实、动态的辉煌面貌看待生物学。基因是蓝图，但蛋白质形式是活生生的、会呼吸的建筑。理解这个丰富的分子世界的旅程才刚刚开始，它有望重塑我们对所有生物的理解。