
蛋白质是细胞的劳作者,是执行几乎所有生物学功能的复杂分子机器。了解细胞中存在哪些蛋白质以及它们的数量,是破译生命、健康和疾病机制的基础。然而,蛋白质组——即一个生物体中全部蛋白质的集合——的巨大复杂性和微观尺度带来了艰巨的挑战。我们究竟如何才能为这样一个复杂系统的组件编制目录呢?
本文通过探讨蛋白质鉴定的主导方法——自下而上蛋白质组学,来回答这个核心问题。它揭示了将复杂的生物样品转化为具体的已鉴定蛋白质列表的过程。在第一章“原理与机制”中,我们将剖析该方法的核心策略,从将蛋白质分解为易于处理的肽段的初始步骤,到利用质谱技术和计算数据库搜索以统计置信度确定其身份的复杂过程。随后,在“应用与跨学科联系”中,我们将看到这一强大功能如何应用于解决现实世界的问题,从而改变了从疾病诊断、药物发现到个性化医疗和生态学等多个领域。读完本文,您将不仅理解蛋白质鉴定的“如何做”,更将领会其背后深刻的“为什么”——我们为何要鉴定那些使生命成为可能的蛋白质。
设想你发现了一台全新的、极其复杂的机器,或许来自外星。你想了解它由什么构成以及如何工作。你不能只看看它;它的部件太小,且连接错综复杂。你会怎么做?一个明智但略显粗暴的方法是,将其分解成最小的组成部件——螺母、螺栓和齿轮——并逐一识别。通过为所有部件编目,你就可以开始拼凑出这台机器的蓝图。
这正是蛋白质组学中主导策略——自下而上蛋白质组学(bottom-up proteomics)背后的哲学。这里的“机器”是细胞中的蛋白质,而我们想要创建一份完整的部件清单。然而,这个将事物分解以便理解的简单想法,背后隐藏着一个充满优美原理、巧妙技巧和深刻挑战的世界,而这些正是现代生物学的核心。
单个蛋白质是由氨基酸组成的长链,折叠成精确的三维形状。直接分析这整个复杂的对象十分困难。因此,自下而上方法始于一个可控的拆解步骤:它使用酶(如同分子剪刀),将样品中的每个蛋白质切成更小、更易于处理的片段,称为肽段(peptides)。最常用的酶——胰蛋白酶(trypsin),能够可靠地在特定氨基酸(赖氨酸和精氨酸)之后切断蛋白质链,从而产生一组可预测的肽段片段。
这第一步就是一个关键的权衡。它使问题变得可解,但也付出了代价。通过将蛋白质切成几十个小片段,我们立即丢失了关于它们最初如何连接的重要信息。例如,如果一个蛋白质在靠近开头和靠近末尾处各有一个不同的化学修饰,而我们将其切碎,最终会得到两个独立的修饰肽段。我们虽然可以识别出这两个肽段,但再也无法判断它们是来自一个同时具有两种修饰的蛋白质分子,还是来自两个分别只带一种修饰的不同蛋白质分子。这种连接信息的根本性丢失是一个我们将反复讨论的主题,因为它正是该领域最大挑战之一的根源。就目前而言,我们有了一堆拼图碎片——一“袋”肽段——下一步就是识别每一个碎片。
你如何识别一个看不见的肽段?靠称重。这就是质谱仪(mass spectrometer)的工作,它是一种对分子极其敏感的“天平”。在一种称为串联质谱(tandem mass spectrometry,或MS/MS)的技术中,这个过程分两个阶段进行。
首先,质谱仪测量完整肽段的质荷比(),我们称之为母离子(precursor ion)。这就像称量一辆自行车。然后,巧妙的部分发生了:仪器只分离出特定质量的离子,将它们转移到“碎裂室”,并用一股气体将它们撞碎。接着,它测量所有产生的碎片离子(fragment ions)的质量。这就像拿起你的自行车,把它拆解成车架、车轮和车把,然后分别称量每个部件。
这种碎裂并非随机。它可预测地沿着肽段的骨架发生,产生一个阶梯状的碎片系列(称为b离子和y离子)。由此产生的碎片质量列表——即MS/MS谱图(MS/MS spectrum)——是该肽段氨基酸序列的一个丰富而独特的指纹。现在的挑战就是解读这个指纹。
你可能会认为,我们只需查看碎片阶梯中的质量差就能拼出氨基酸序列。这被称为*从头测序*(de novo sequencing),虽然可行,但在计算上很困难且常常存在歧义。一种更强大、更常用的方法是将我们的实验指纹与一个包含所有可能指纹的文库进行匹配。
这时,一个蛋白质序列数据库(protein sequence database)就变得不可或缺。对于任何给定的生物体——人类、细菌、酵母——科学家们已经对其基因组进行了测序,我们可以利用这些信息预测它可能制造的每一种蛋白质的氨基酸序列。这个数据库是我们最终的参考手册。
鉴定过程变成了一场宏大的计算搜索:
在这场搜索中,精度就是力量。一台现代高分辨率质谱仪可以测量质量,其精度优于百万分之(5 ppm)。对于一个质量为道尔顿的肽段,这意味着不确定性仅为道尔顿!这种惊人的精度极大地缩小了搜索窗口。我们不再需要从数据库中检查成千上万个质量大致相同的潜在肽段候选者,可能只需要检查几十个。这就像在图书馆里搜索“一本大约300页的书”与搜索“一本恰好有301页、142,312个单词、红色封面的书”之间的区别。线索越具体,嫌疑对象就越少。
找到一个匹配是一回事;确定它是正确的匹配则是另一回事。随机性总可能在实验谱图和理论谱图之间产生一个看似不错的匹配。我们如何建立信心并剔除假阳性呢?
首先,我们审视证据的质量。来自搜索算法的单个“相似性得分”并非全部。一个更可靠的鉴定是,大量预测的碎片离子在实验谱图中都能被实际找到。想象一把钥匙必须匹配锁里的十个不同的弹子。一把能匹配其中九个弹子的钥匙,即使有些紧,也远比一把完美匹配五个弹子但在另外五个上失败的钥匙更有可能是正确的那一把。匹配的碎片越多,意味着有更多独立的证据证实了该序列。
其次,这是一个真正绝妙的想法,我们可以通过使用伪数据库(decoy database)来估计我们自欺欺人的频率。在真实的“靶标”数据库(包含正确的蛋白质序列)旁边,我们创建一个大小相同、充满了无意义序列的“伪”数据库。一个常见的做法是简单地将每个真实的蛋白质序列反转(例如,PEPTIDE变成EDITPEP)。关键的假设是,这些伪序列在自然界中不存在。因此,我们的实验数据与伪序列之间的任何匹配必定是随机的、假阳性的匹配。
通过在合并的靶标-伪数据库中进行搜索,我们可以统计与真实序列匹配的数量和与无意义序列匹配的数量。伪数据库的匹配数量直接估计了在给定的分数阈值下,我们真实靶标匹配中可能潜藏着多少随机假阳性。这使我们能够计算假发现率(False Discovery Rate, FDR)——即我们最终列表中错误鉴定的预期百分比。通过设定一个FDR,比如说,我们在统计上确保我们期望报告的鉴定中只有是错误的。这是对整个分析过程的一个优雅的、内置的控制实验。
但即使有高分和低FDR,还有一个最终的、微妙的转折,触及了科学证据的本质。想象一下,你正在分析一个人类组织样本,你的算法报告了一个高分、统计上显著的匹配,对应的是一种只生活在深海火山口的细菌的蛋白质。你应该相信它吗?可能不会。这就是贝叶斯定理(Bayes' theorem)发挥作用的地方。一个鉴定正确的最终概率(后验概率)不仅取决于新证据的强度(谱图匹配度),还取决于该蛋白质最初存在于那里的先验概率(prior probability)。一个非凡的主张——比如在人体内发现一种火山口细菌的蛋白质——需要异常强大的证据来克服极低的先验概率。一个仅仅是“好”的分数是不够的。这提醒我们,数据分析并非在真空中进行;它总是在我们关于世界的现有知识背景下被解读。
现在我们已经以统计置信度鉴定出了一系列肽段,我们面临着重建原始蛋白质的挑战。正是在这里,生物学那美丽而混乱的特性再次浮现。
首先,我们遇到了蛋白质推断问题(protein inference problem)。如果我们鉴定出的一个肽段序列,根据我们的数据库,同时存在于两种不同的蛋白质中,比如蛋白质A和蛋白质B(它们可能是密切相关的异构体),会怎么样?如果我们没有发现任何其他只属于A或B的独特肽段,我们就无法确定我们的样本中包含的是A、B,还是两者都有。我们只能得出结论,即至少其中之一是存在的。肽段是证据,但其来源是模糊的。这就像找到一块特定的乐高积木,它既在城堡套装中出售,也在太空船套装中出售;找到这块积木证明你拥有其中一套,但在没有更多独特积木的情况下,你无法确定是哪一套。
当我们考虑到蛋白质分子的真实多样性时,这种模糊性演变成一个更深层次的挑战。一个基因仅仅是一个蓝图。细胞中真正的功能实体是蛋白质形式(proteoforms)。单个基因可以通过选择性剪接等过程产生多种异构体(isoforms)。这些异构体中的每一个随后又可以被一系列广泛的翻译后修饰(Post-Translational Modifications, PTMs)进行化学修饰,并且其起始和末端可能被剪切。一个蛋白质形式是特定的、最终的分子实体:即一个特定的异构体,带有其所有修饰和加工事件的特定组合。
这就是自下而上方法的根本局限性——我们在最开始就注意到的那一点——再次困扰我们的地方。因为我们在分析前将蛋白质切成肽段,我们破坏了关于哪些PTM发生在同一个分子上的信息。我们最终得到的是一“袋”肽段。我们可能鉴定出一个带有磷酸基团的肽段,以及另一个(来自同一蛋白质的)带有乙酰基团的肽段。但我们无法知道是否存在一个同时携带两种修饰的蛋白质分子,或者是否存在两种不同分子群体的混合物:一种只有磷酸基团,另一种只有乙酰基团。我们识别了部件,但丢失了它们如何组装成特定的、功能性的蛋白质形式的蓝图。
蛋白质推断和蛋白质形式表征的挑战是蛋白质组学研究的前沿。科学家们正在开发新的策略来克服它们。
一种替代方法是自上而下蛋白质组学(top-down proteomics),它勇敢地尝试在不进行任何预先消化的情况下分析完整的、整个的蛋白质形式。这保留了所有宝贵的连接信息,但在分离和分析这些巨大、复杂且通常稀少的分子方面带来了巨大的技术挑战。这有点像试图在不拆解的情况下分析那台外星机器——如果能成功,信息量极大,但难度也大得多。目前,自下而上方法仍然是主力,而自上而下则是一种强大但更专门化的方法。
在自下而上的世界里,创新从未停止。经典的数据采集方式,数据依赖性采集(Data-Dependent Acquisition, DDA),就像一个在派对上的摄影师,他会迅速抓拍房间里任何时刻最突出(即强度最高)的10到20个人。这种方式高效,能拍到最显眼对象的好照片,但它带有偏见,会错过那些更安静但可能很重要的客人。
一种更新、更全面的策略是数据非依赖性采集(Data-Independent Acquisition, DIA)。DIA就像对整个房间进行连续录像。质谱仪不是挑选母离子,而是系统地在宽隔离窗口内碎裂整个质量范围内的所有肽段。由此产生的数据极其复杂——是数百种共洗脱肽段的碎片谱图的叠加。解读这些信息是一项巨大的计算挑战,通常依赖于谱图库(spectral library)——一个预先存在的、包含高质量肽段指纹及其保留时间的目录——来指导搜索。虽然分析难度更大,但DIA提供了对样本中每一个肽段的更完整、更无偏的记录,使其在量化蛋白质丰度变化和帮助我们向解决蛋白质形式难题迈进方面异常强大。
从一个简单的想法——将蛋白质分解以进行鉴定——我们经历了一段旅程,跨越了高精度物理学、巧妙的统计验证和深刻的生物学模糊性。蛋白质的鉴定不是一个单一事件,而是一系列推断的级联反应,一个建立在层层证据之上的概率论证,不断地挑战着生命细胞那令人眩目的复杂性。
我们花了一些时间来理解质谱仪的奇妙机制和数据库搜索的巧妙逻辑,这些使我们能够命名活细胞中工作的蛋白质。这是一项了不起的成就,就像能够为想象中最复杂的机器阅读一份零件清单。但是,一份零件清单,无论多么完整,都只是故事的开始。真正的激动人心之处在于,我们利用这份清单来提出问题——来进行科学研究。这台机器在做什么?当我们触碰它时,它如何反应?它如何自我修复?当它损坏时又会发生什么?
现在,让我们踏上一段旅程,看看蛋白质鉴定如何从一项技术壮举转变为一个强大的透镜,通过它我们可以观察整个生命的戏剧,从最小的细菌到人类疾病的复杂性,甚至整个生态系统。
我们可以提出的第一个,或许也是最根本的问题是:谁在岗?一个细胞的基因组就像一个巨大的蓝图库,包含了它可能制造的每一种蛋白质的蓝图,但它肯定不会一直制造所有这些蛋白质。它比那要高效得多。它按需生产蛋白质。因此,如果我们将一个细胞置于新的、具有挑战性的环境中,我们可以预期它会改变其“工作团队”。
设想一个简单的生物体,一种通常生活在适度咸水湖中的古菌。现在,假设我们把它移到一个盐度高得多的环境中,这种环境对大多数其他生命形式都是致命的。它如何生存?它一定在做些什么特别的事情。通过使用我们的质谱仪,分别在“舒适”和“高压”的盐度条件下对该生物体中的所有蛋白质进行快照分析,我们可以进行比较分析。我们不只是寻找一个静态的列表;我们在寻找变化。我们可以问,“当盐浓度上升时,哪些蛋白质的丰度变得更高?”这些上调的蛋白质就是我们对耐盐机制团队的主要怀疑对象。它们可能是将盐主动泵出细胞的泵,或者是合成小分子以平衡渗透压的酶。这种比较两种状态——健康与患病、刺激前与刺激后、安逸与艰难——的简单而优雅的想法,是蛋白质组学最强大的应用之一,它使我们能够根据未知蛋白质何时出现来推测其功能。
当然,蛋白质很少单独行动。它们组成团队、复合物和错综复杂的网络来执行任务。一个蛋白质可能是一种酶,但它的活性可能被另一个与之结合的蛋白质开启或关闭。我们如何找出这些伙伴关系呢?
在这里,我们可以将我们的蛋白质组学分析变成一种分子间谍活动。这项技术被称为亲和纯化-质谱(Affinity Purification-Mass Spectrometry, AP-MS),而且非常巧妙。首先,我们选择一个我们感兴趣的蛋白质——我们称之为“诱饵”。我们给它附上一个分子“把手”。然后,我们将我们的诱饵蛋白质混入一个充满成千上万种其他蛋白质的细胞汤中。诱饵会找到并粘附在它的天然伙伴,即“猎物”上。然后,我们用这个把手将我们的诱饵蛋白从汤中拉出来。当然,任何与它“交谈”的蛋白质——任何与它结合的猎物蛋白质——都会被一同带出。
一旦我们分离出这个小小的社交圈,我们就加入像胰蛋白酶这样的蛋白质切割酶,将整个复合物切成小肽段。然后质谱仪开始工作,鉴定所有存在的肽段。我们知道会找到来自我们诱饵的肽段,但激动人心的发现是所有被共同纯化的其他蛋白质的身份。通过这种方式,我们可以系统地绘制出细胞中庞大、相互连接的社交网络,揭示生命的机器不是单个零件的集合,而是一个动态的、相互作用的社会。
这种以极高灵敏度鉴定特定蛋白质的能力对医学具有深远的影响。考虑一个在医院里出现脓毒性休克症状的病人。原因可能是多种多样的。它可能是一种由大肠杆菌(E. coli)等细菌引起的全身性感染,其外壁含有一种称为内毒素(脂多糖,即LPS)的有毒非蛋白质分子。或者,它可能是由葡萄球菌引起的毒性休克综合征,这是由细菌分泌到血液中的一种强效蛋白质外毒素,称为TSST-1引起的。
对患者血清进行标准的蛋白质组学实验可以起到决定性的侦探作用。质谱仪的设计是通过将蛋白质切成肽段并对这些肽段进行测序来鉴定蛋白质。如果患者患有葡萄球菌引起的毒性休克综合征,TSST-1蛋白毒素将存在于他们的血液中。我们的分析将找到其独特的肽段片段,为罪魁祸首提供直接而明确的指纹。然而,如果原因是大肠杆菌败血症,那么罪魁祸首(LPS)是一种脂多糖,而不是蛋白质。它不能被胰蛋白酶切割,也无法通过标准的蛋白质组学搜索被鉴定。蛋白质信号的缺失本身就成了一个强有力的线索。这说明了蛋白质组学如何通过直接鉴定疾病的分子媒介来提供快速、精确的诊断。
我们可以将这个想法从诊断推向治疗。我们不仅可以问哪些蛋白质存在,还可以问哪些蛋白质是有活性的。许多蛋白质,特别是酶,有一个进行化学反应的“活性位点”。利用化学生物学中一种巧妙的跨学科方法,称为基于活性的蛋白质分析(Activity-Based Protein Profiling, ABPP),我们可以设计“智能探针”。这些小分子被设计成可以进入细胞,并只与特定类别酶的活性位点形成永久性的共价键。通过在这些探针上附加荧光标签或亲和把手,我们可以从细胞中成千上万的蛋白质中选择性地拉出只有功能活性的酶。
这对药物发现来说是颠覆性的。想象一下,我们有一个新的候选药物,旨在抑制一种特定的激酶,这类酶在癌症中常常过度活跃。我们如何知道它在真实细胞中是否有效?我们可以使用竞争性ABPP。我们用我们的药物处理一份癌细胞样本,用安慰剂处理另一份。然后,我们向两份样本中都加入我们的活性探针。在安慰剂样本中,探针会标记所有活性的激酶。但在药物处理的样本中,如果我们的药物有效,它会占据激酶的活性位点,并阻止探针结合。当我们用质谱仪分析样本时,我们会看到药物处理样本中来自我们目标激酶的信号急剧下降。通过测量不同药物浓度下这种信号下降的程度,我们甚至可以非常精确地计算出药物的效力(),而这一切都是在细胞本身的复杂环境中完成的。
到目前为止,我们鉴定肽段的能力依赖于一个关键假设:我们有一本参考书——一个包含所有蛋白质序列的数据库——来与我们的谱图进行匹配。多年来,这本“书”一直是某个物种的参考基因组。但是,当文本本身被改变时,就像在癌症中那样,会发生什么呢?
这就是蛋白质基因组学(proteogenomics)领域的用武之地。在肿瘤中,DNA充满了突变。这些突变被转录成RNA,并可能导致产生含有单个氨基酸改变或来自替代基因剪接的全新片段的异常蛋白质。这些“新抗原”不在我们的标准参考书中。要找到它们,我们必须首先创建一份个性化的手稿。通过对患者自身肿瘤的RNA进行测序(一种称为RNA-seq的技术),我们可以创建一个定制的、患者特异性的蛋白质数据库,其中包含所有这些潜在的癌症特异性变异。然后,当我们用这个个性化数据库搜索我们的质谱数据时,我们就能鉴定出肿瘤特有的蛋白质变体。这不仅加深了我们对疾病的理解,也为真正的个性化医疗打开了大门,例如设计疫苗来训练免疫系统识别这些独特的肿瘤蛋白。这个过程并非没有挑战;例如,在高度变异的病毒中区分真正的毒株变体和不同的蛋白质,需要复杂的统计方法来避免假阳性并正确地对相关蛋白质进行分组。
这种利用蛋白质组学来验证和探索遗传信息的原则超越了单个生物体。考虑一个复杂的微生物群落,比如我们肠道中或工业生物反应器中的群落。对这样一个样本中的所有DNA进行测序(宏基因组学)会给我们带来一个来自数千个不同物种的基因片段的杂乱集合。这就像拥有一个所有书籍都被撕碎并混合在一起的图书馆。我们如何知道我们拼凑书籍的尝试是否正确?宏蛋白质组学(Metaproteomics)提供了答案。通过鉴定群落中正在活跃产生的蛋白质,我们可以为预测的基因提供直接证据。如果我们发现的肽段对应于基因组组装预测为“基因间”区域(即基因之间)的区域,这告诉我们我们的基因模型是错误的。如果我们发现的肽段跨越了两个独立的已组装DNA片段,这证实了它们应该连在一起。通过这种方式,蛋白质证据作为最终的“地面实况”,帮助我们纠正我们的基因组图谱,并理解这些复杂生态系统中生物体的功能角色。
旅程并未在此结束。尽管标准的蛋白质组学实验功能强大,但它会磨碎细胞和组织,从而丢失一个关键信息:位置。知道一种蛋白质存在于肿瘤中很有用,但知道它特异性地存在于肿瘤边缘的侵袭性癌细胞中,而不是在附近的免疫细胞中,则更为强大。
新的前沿是空间蛋白质组学(spatial proteomics)。尖端技术现在允许我们直接在组织切片内进行这些分析。通过使用带有独特DNA条形码标记的抗体,我们可以可视化数十甚至数百种特定蛋白质的位置,同时测量相同细胞中的RNA转录本。这就像从一个城市居民的简单人口普查列表,升级到一张高分辨率的卫星地图,显示每个人在他们的家中,甚至他们在读什么书。这种多组学的、空间的视角使我们能够以前所未有的方式理解定义器官功能或疾病进展的复杂细胞邻里关系和通信网络。
最后,我们必须感谢整个事业中的沉默伙伴:计算机。现代质谱仪产生的数据洪流是难以想象的。一次实验可以产生数百万个必须被解读的复杂谱图。这项任务如此艰巨,以至于它正在推动计算科学的边界。科学家们现在将肽段鉴定视为一个人工智能问题。他们正在训练深度神经网络——与面部识别和自动驾驶汽车中使用的同类算法——来观察串联质谱图(那复杂的峰图),并将其识别为特定肽段的“图像”。
这使我们的旅程回到了起点。我们从称量分子的简单物理行为开始。我们看到这如何引出一种解读细胞蛋白质语言的方法。我们现在已经到达了一个点,这种语言的复杂性如此之大,以至于我们正在教机器为我们阅读它。真空中离子的物理学、活细胞的生物学和人工智能的抽象逻辑之间的联系,代表了科学的惊人统一,它预示着我们未来能够讲述的故事将比我们迄今为止讲述的任何故事都更为深刻。