MHC 结合预测

玻尔百科

定义

MHC 结合预测是指通过计算方法预测肽段与主要组织相容性复合体（MHC）分子之间结合亲和力的技术，属于免疫信息学领域。该技术已从简单的得分矩阵演变为高级机器学习模型，旨在解决 MHC I 类和 II 类分子因沟槽结构差异带来的预测挑战。MHC 结合预测是开发个性化癌症疫苗、评估器官移植风险以及研究自身免疫性疾病的关键工具。

核心要点

MHC I 类（沟槽闭合，可结合短肽）和 II 类（沟槽开放，可结合长肽）分子之间的结构差异，为预测带来了不同的挑战。
准确的预测依赖于高分辨率的 HLA 分型，其模型已从简单的评分矩阵演变为先进的机器学习和泛等位基因模型。
全面的抗原呈递预测器将结合亲和力与其它细胞过程（包括基因表达、蛋白酶体切割和 TAP 转运）整合在一起。
MHC 结合预测是开发个性化癌症疫苗、评估器官移植风险、理解自身免疫以及提高新药安全性的关键工具。

引言

免疫系统区分敌我的能力取决于一个关键过程：由主要组织相容性复合体 (MHC) 分子呈递肽段。这一机制使得 T 细胞能够审视细胞的内部成分，识别出病毒或癌变产生的片段。然而，细胞内会产生无数种潜在的肽段，一个根本性的挑战也随之而来：我们如何预测哪些特定的肽段能成功地与个体的特有 MHC 分子结合并呈递给免疫系统？回答这个问题是利用免疫系统达到治疗目的的关键。本文将探索 MHC 结合预测的世界，为研究人员和临床医生提供一个全面的概述。第一章“原理与机制”将阐释结合的生物物理规则、MHC 类别的结构差异以及计算模型从简单的矩阵到复杂人工智能的演变。随后，“应用与跨学科联系”一章将展示这些预测工具如何彻底改变从个性化癌症疫苗、移植医学到自身免疫和药物研发等领域。

原理与机制

想象一下，你正在尝试为一把非常特殊且极为重要的锁设计一把钥匙。这并非寻常的锁；它是一把分子锁，一旦被打开，就会向你的免疫系统发出信号：“看，这里有你需要注意的东西——可能是一块病毒的碎片，或是一个癌细胞的片段。”这本质上就是预测哪些肽段会与主要组织相容性复合体 (MHC) 分子结合的挑战。这是一场由物理、化学和生物学原理支配的分子识别游戏，而我们的任务就是精通这场游戏的规则，从而能够预测出赢家。

两把锁的故事：I 类和 II 类沟槽

我们故事的核心是 MHC 分子本身，在人类中被称为人类白细胞抗原 (HLA)。它们主要分为 I 类和 II 类两种，两者之间最深刻的区别在于其肽结合槽的形状——也就是肽段装入的“锁孔”。

MHC I 类分子的沟槽就像一个面包烤盘：两端是封闭的。这个看似简单的结构特征对其所能容纳的肽段施加了严格的规则。它们必须具有精确的长度，通常仅为 $8$ 到 $10$ 个氨基酸长，才能紧密地嵌入沟槽中。短了，它们无法形成必要的接触；长了，则根本装不进去。

与此形成鲜明对比的是，MHC II 类分子的沟槽则像一个热狗面包：两端是开放的。这使得“钥匙”般的肽段可以更长、更灵活，通常为 $13$ 到 $25$ 个氨基酸，其末端可以悬垂在沟槽之外。虽然一个约由九个氨基酸组成的中心部分——结合核心——仍然负责锚定肽段，但其总长度的变化范围要大得多。

这一个结构上的差异带来了巨大的影响。预测 I 类分子的表位是一个约束性更强的问题，而对于 II 类分子，我们必须应对令人眼花缭乱的多种可能长度和排列方式。正如我们将看到的，这使得 II 类分子的预测任务在本质上更为复杂，计算上也更具挑战性。

了解你的锁：高分辨率分型的必要性

在我们开始预测哪把钥匙能配上锁之前，我们必须知道锁的确切形状。编码 HLA 分子的基因是整个人类基因组中多态性最强或变异最大的基因。在人类群体中，存在数千种不同的版本，或称等位基因。你的一套 HLA 等位基因是你免疫学身份的核心部分，决定了你的免疫系统能“看见”哪些病原体或肿瘤的片段。

这种多样性解释了为何HLA 分型（即鉴定个体携带何种等位基因的过程）是至关重要的第一步。然而，并非所有的分型都具有同等价值。低分辨率或两位数分型（例如 HLA-A*02）只能告诉你该等位基因所属的大致家族。这就像知道你有一把福特车的钥匙，但不知道是用于野马还是福克斯。在同一个两位数组中的等位基因，其肽结合槽内部往往有一个或多个氨基酸的差异。这些微小的变化可以极大地改变哪些肽段能够结合。

为了进行准确的预测，我们需要高分辨率或四位数分型（例如 HLA-A*02:01）。这种详细程度指定了结合区域的独特蛋白质序列，为我们提供了试图匹配的锁的精确蓝图。有时，即便如此也未必是全部。像“N”这样的后缀，代表一个根本不表达的“无效”（Null）等位基因，也可能至关重要。如果细胞表面根本不存在这把锁，一把完美的钥匙也毫无用处！。

学习匹配规则：从评分卡到人工智能

一旦我们知道了 MHC 锁的确切结构，我们如何预测哪些肽段钥匙能够匹配呢？最早的计算方法非常简洁。

其中一种模型是位置权重矩阵 (PWM)。想象一张针对一个 9 氨基酸长肽段的评分卡。在九个位置的每一个上，评分卡都列出了 20 种可能的氨基酸，并为每种氨基酸打分。如果 MHC 沟槽中的某个口袋（例如 2 号位）又大又油腻，那么像酪氨酸这样庞大、疏水性的氨基酸可能会在该位置获得高分，而一个小氨基酸则可能得分很低。总结合分数就是每个位置得分的总和。这个模型做出了一个大胆的假设：每个氨基酸的贡献完全独立于其相邻的氨基酸。当结合主要由少数几个嵌入 MHC 沟槽深口袋的“锚定”残基主导时，这种方法出奇地有效。

但自然界很少如此简单。有时，一个位置上存在一个大残基只有在相邻位置是一个小残基为其腾出空间时才有利。这些是位置间的相互依赖关系，简单的加和式 PWM 无法捕捉到它们。正是在这里，现代机器学习模型，如人工神经网络，彻底改变了该领域。这些模型就像经验丰富的裁判，能从海量的实验数据中学习到这些复杂的非线性规则。通过检查成千上万个能够结合和不能结合的肽段案例，它们能够学会肽序列上不同位置之间微妙的相互作用。

这种能力是有代价的：这些灵活的模型对数据有极大的需求。为了解决这个问题，科学家们开发了泛等位基因模型。泛等位基因模型不是为成千上万个 HLA 等位基因中的每一个都训练一个单独的模型，而是在来自许多等位基因的数据上同时进行训练。它学习 MHC 沟槽本身的氨基酸与其偏好的肽段残基之间的一般关系。这使得它即使对于缺乏或几乎没有特定训练数据的罕见 HLA 等位基因，也能做出非常准确的预测。

更宏大的图景：抗原呈递流水线

至此，我们得出了一个美妙的见解，一个还原论让位于更整体化、系统层面观点的地方。知道一个肽段能够与 MHC 分子结合是不够的。为了让 T 细胞看到它，这个肽段必须首先在细胞内被制造、加工并递送到 MHC 分子处。结合是呈递的必要条件，但非充分条件。

这就是一个简单的结合预测器和一个更全面的呈递预测器之间的区别。呈递预测器模拟了整个细胞内的流水线。对于 MHC I 类，这条流水线包括：

抗原供应：源蛋白必须存在于细胞中。一个基因表达得越多，制造的蛋白质就越多，潜在肽段的供应就越充足。我们可以使用 RNA 测序数据来估算这种供应，通常量化为每百万转录本数 (TPM)，它可作为进入降解途径的蛋白质流量的代表。
蛋白酶体切割：在细胞内部，一个名为蛋白酶体的分子机器就像一台碎纸机，将陈旧或受损的蛋白质切成小肽段。但它不是随机切割的；它有偏好的切割模式，这会影响所产生的肽段库。
TAP 转运：这些肽段片段随后必须从细胞的主要隔室（细胞质）转运到内质网 (ER)，那里有等待的 MHC I 类分子。这项递送服务由一个名为 TAP 的转运体负责，它也是一个选择性的守门员，偏好特定长度和序列的肽段。

因此，一个最先进的呈递预测器不仅仅是问：“它能结合吗？” 它会计算一个整体概率，综合考虑一个肽段成功通过这个级联反应中每一步的可能性：源于一个表达的基因，被蛋白酶体正确切割，被 TAP 成功转运，并最终与 MHC 分子结合。

最后几层：统计学与免疫系统的智慧

我们已经构建了一个强大的预测引擎，将生物物理学和细胞生物学与机器学习相结合。然而，还有两个最后但至关重要的原则在等待我们。

首先是统计学上的谦逊。假设一个优秀的预测器有 95% 的特异性和 80% 的灵敏度——这些数字非常可观。然而，如果真正具有免疫原性的表位本身就很罕见（比如出现率很低，仅为 5%），那么根据贝叶斯定理，一个发人深省的现实就会浮现。阳性预测值 (PPV)——即一个预测的“命中”是真实命中的几率——可能会出人意料地低。在这种情况下，我们不到一半的预测会是正确的。这不是模型的失败；这是在大海捞针时的一个基本属性。它告诉我们，即使是我们最好的预测也仅仅是预测，它们需要严格的实验验证。

第二个也是最深刻的原则是免疫学本身的背景。想象一下，我们的模型和实验室实验都鉴定出两种能与患者 HLA 分子强力结合的肽段。一种是肿瘤相关抗原，一种正常的自身蛋白，只是在癌症中过度表达。另一种是新抗原，一种由癌症特异性突变产生的全新肽段。从生物物理学角度看，自身抗原甚至可能是更好的结合者。哪一个更适合作为疫苗靶点？绝大多数情况下，是新抗原。

原因在于中枢耐受。你的免疫系统在胸腺中被训练，不去攻击你自己的“自身”蛋白。那些会对自身抗原产生强烈反应的 T 细胞被删除或失活了。但新抗原是外来的。免疫系统以前从未见过它。能够识别它的强大 T 细胞库很可能仍然存在，等待着被释放。因此，一个表位的最终优先排序不能仅基于结合亲和力。它必须根据其来源进行加权，对自身肽段进行惩罚，并对真正的新抗原进行加权。

这就是我们主题的美妙统一之处。预测 MHC 结合始于钥匙与锁的简单物理学，但它迅速扩展到涵盖细胞生物学的复杂编排、机器学习的统计能力，以及免疫系统深刻且经过演化形成的智慧。

应用与跨学科联系

我们花了一些时间来理解肽段和 MHC 分子之间复杂的舞蹈——可以说，是游戏的规则。我们了解到，要让 T 细胞“看见”一个肽段，它必须首先被呈递，稳固地嵌套在 MHC 分子的沟槽中。这似乎是一个相当具体，甚至有些深奥的生物学机制。但一个深刻物理原理的美妙之处在于它从不仅仅是一个奇闻。就像一把万能钥匙，肽-MHC 结合的原理为我们打开了我们可能从未想过会相互关联的房间的门。现在我们有了钥匙，让我们来一次游览，看看这些门后隐藏着什么。我们会发现，这个单一的“粘性”概念提供了一条统一的线索，贯穿于抗击癌症、预防自身免疫、保障器官移植安全以及设计新药的各个领域。

抗癌之战：训练免疫系统看见不可见之物

几十年来，我们用毒药（化疗）和辐射来对抗癌症。这些都是粗糙的工具，攻击快速分裂的细胞，并造成广泛的附带损害。相比之下，免疫系统是一支由精准刺客组成的军队。那么，为什么它常常无法发现体内生长的肿瘤呢？答案是，癌症是一个聪明的伪装大师；它源于我们自身的细胞，所以它穿着“自身”的制服。但这是一种不完美的伪装。随着癌细胞的变异，它们的蛋白质发生变化，产生微小的差异——就像制服上多了一个新的“序列号”。这些改变了的蛋白质片段被称为新抗原。

这就是我们的万能钥匙发挥作用的地方。如果我们能够识别出哪些突变肽段会与患者特定的 MHC 分子强力结合，我们基本上就能制作一张“头号通缉”海报，并展示给免疫系统。这就是个性化癌症疫苗的核心。整个过程是基因组学、免疫学和计算的宏伟综合。它始于对肿瘤和患者健康组织进行测序，以找到癌症独有的突变。然后，我们检查这些突变基因中哪些实际上正在被表达——靶向一个甚至没有被制造出来的蛋白质是没有意义的。从这个列表中，我们生成所有可能包含突变的肽段片段。接着是关键步骤：使用我们的预测算法，将每个肽段与患者自己的一套 HLA 等位基因进行测试。我们在问这样一个问题：“这个会粘住吗？”

这个从在基因组中寻找突变到交付一份有希望的候选疫苗排名列表的综合流程，代表了肿瘤学领域的范式转变。但预测并非证明。一个好的科学家总是带有一点怀疑。我们如何知道我们的预测反映了现实？我们可以去亲眼看看！通过一种称为免疫肽组学的技术，我们可以从肿瘤细胞上物理性地拉下 MHC 分子，并使用质谱法直接鉴定出实际被呈递的肽段。这就像天文学家通过计算预测一颗行星的存在，然后将望远镜指向天空进行确认。预测的列表和观察到的列表很少会完全匹配，而这些差异正是新科学诞生的地方。也许一个预测的强结合物没有被观察到，是因为它被细胞的加工机器切割掉了。或者，也许我们观察到的一个肽段没有被预测到，因为它有一些不寻常的修饰。计算机模拟预测与实验验证之间的协同作用是发现的强大引擎。

即使有如此强大的能力，一长串潜在靶点也是不够的。我们需要选择最好的。一个复杂的策略不依赖于单一的证据。它将多个数据流整合成一个连贯的判断。我们可能会构建一个评分系统，提问：(1) 它预测的结合强度有多大？(2) 源基因是否高表达，提供了充足的原材料？(3) 最重要的是，我们是否有来自质谱的直接、物理的呈递证据？通过对这些因素进行加权——也许使用对数尺度来恰当处理跨越巨大范围的数据，如基因表达——我们可以建立一个真正稳健的优先排序方案。来自质谱的直接观察可能会获得最高的权重，其次是结合预测，然后是表达水平，从而创建一个从“可能”到“很可能”再到“已确认”的信心等级体系。这就是我们如何汇编最有效的“头号通缉”名单，以指导我们患者的免疫系统。

免疫系统的双刃剑：安全、移植与自身免疫

引导免疫系统目光的力量是一种强大的工具。但它也伴随着巨大的责任。能够根除肿瘤的同一个 T 细胞，如果被错误引导，也可能攻击一个健康的器官。我们的预测工具不仅用于寻找靶点，也用于预见和防止这种“友军误伤”。

想象一下，我们为癌症疫苗找到了一个绝佳的新抗原候选物。它与患者的 HLA 类型强力结合，并来自肿瘤中一个突变的基因。在继续之前，我们必须进行一次关键的安全检查。我们问计算机：“人体内有没有任何正常的、健康的肽段，看起来与我们的靶点危险地相似？”假设我们的新抗原与心肌肌球蛋白中的一个肽段只有一个氨基酸的差异，而心肌肌球蛋白是心脏肌肉功能所必需的蛋白质。再假设这个心脏肽段也能与同一个 HLA 分子强力结合。这是一个红色警报。T 细胞一旦被激活，可能会有一定的交叉反应性。一个被训练来识别癌症肽段的 T 细胞，也可能识别几乎相同的心脏肽段。结果可能是对心脏的致命性自身免疫攻击——心肌炎。因此，我们的预测算法成为一个必不可少的安全过滤器，使我们能够建立保守的排除标准。例如，我们可能会自动丢弃任何与已知在重要器官中表达的自身肽段非常相似的疫苗候选物。

这个概念远不止于癌症。考虑器官移植。在这里，“敌人”是一份拯救生命的礼物。受者的免疫系统将供体器官视为外来物并对其发起攻击。一种特别隐蔽的排斥形式是由抗体驱动的，而抗体是在 T 细胞的帮助下由 B 细胞产生的。这是如何发生的呢？受者的 B 细胞可以吞噬供体器官脱落的蛋白质——包括与受者不同的供体自身的 HLA 分子。然后，B 细胞将这些外来的 HLA 蛋白切成肽段，并在它们自己的 HLA II 类分子上呈递出来。如果受者有能够识别这些被呈递的供体肽段的辅助性 T 细胞，它们就会给 B 细胞发出“许可”，从而产生毁灭性的抗供体抗体。

我们能预测这个过程吗？是的！利用完全相同的原理，我们可以建立一个计算模型来模拟这种“间接”识别途径。我们获取不匹配的供体 HLA 蛋白的序列，将它们切成所有可能的肽段，然后预测其中哪些能够与受者的 HLA II 类分子结合。由此产生的评分，量化了预测的间接可识别 HLA 表位 (PIRCHE) 的数量，为我们提供了一个衡量受者产生此类反应风险的指标，从而使临床医生能够更好地匹配供体和受者，或预见需要更强免疫抑制的需求。

这种识别机制最黑暗的一面是自身免疫，即免疫系统在没有任何外部挑衅的情况下攻击自身。关于其如何开始的一个主要假说是“分子模拟”。一个人得了普通感染，其免疫系统对一种微生物肽段发起了强有力的反应。但纯粹是运气不好，该微生物肽段恰巧与一个自身肽段非常相似，比如说，在神经系统或胰腺中的一个肽段。为抗击感染而被激活和扩增的 T 细胞，现在将它们的矛头转向了身体自身的组织。我们的预测工具让我们能够扮演侦探。我们可以系统地扫描细菌和病毒的蛋白质组，寻找那些既能与疾病相关的 HLA 等位基因结合，又模拟人类自身肽段的肽段。通过将结合预测与结构建模和复杂的统计技术相结合，我们可以建立一个流程，以识别像多发性硬化症或 1 型糖尿病这类疾病最可能的微生物触发因素，这是朝着理解并有朝一日预防它们迈出的关键一步。

为群体和未来而工程

到目前为止，我们都聚焦于个体。但 MHC 结合的原理对于全球公共卫生和医学的未来同样至关重要。

在设计针对病毒或细菌等病原体的疫苗时，我们面临一个巨大的挑战：敌人会进化。病毒可以使其蛋白质发生突变，以逃避我们 T 细胞的识别。我们如何选择一个病原体不易改变的靶点呢？我们必须寻找它的阿喀琉斯之踵。一个稳健的疫苗设计流程再次始于我们熟悉的结合预测，扫描病原体的整个蛋白质组，寻找能够与人类群体中一系列常见 HLA 等位基因结合的肽段。但随后我们增加了两个新的、关键的过滤器：保守性和必要性。我们分析数百种不同病原体株的序列。我们的候选肽段是高度保守的，还是变化很大？我们必须优先考虑保守的那些。接下来，我们问这个肽段是否位于对病原体生存至关重要的基因内。如果该区域的突变会削弱一个至关重要的蛋白质，那么病原体就处在强大的进化压力下不去改变它。通过专注于那些既高度保守又功能上必不可少的表位，我们可以创造出更能抵抗免疫逃逸的疫苗。

同样具有前瞻性的设计也适用于创造新的生物制剂，如治疗性抗体。我们注入患者体内的任何工程蛋白质在技术上都是外来的，都可能引发不必要的免疫反应，产生中和药物或引起副作用的抗药物抗体。制药公司现在使用 MHC 结合预测作为一种常规的“去免疫化”工具。他们扫描其候选药物的序列，寻找任何被预测为强 T 细胞表位的肽段。当找到一个“热点”时，他们可以进行细微的氨基酸替换来破坏 MHC 结合，使该区域对 T 细胞“不可见”——同时小心翼翼地保留药物的治疗功能和稳定性。这是一种主动的免疫工程，在问题出现之前就将其扼杀在萌芽状态。

未来又将如何？免疫反应不是一个单一事件，而是一个动态的、不断演变的过程。针对一个主要靶点的初始反应可能导致肿瘤细胞死亡并释放出大量全新的抗原。这反过来又可能触发针对先前未见靶点的次级反应——一种称为“表位扩散”的现象。这是一件美妙的事情，因为它拓宽并加深了抗肿瘤攻击。我们现在正开始用微分方程组来模拟这些动态过程，将 T 细胞、肿瘤细胞和抗原的群体视为相互作用的变量。我们对 MHC 结合的预测成为这些模型中的关键参数，帮助我们理解免疫反应随时间的级联过程。我们正在从拍摄免疫状态的静态照片转向拍摄整部电影。

从极其个人化的——为单个患者设计疫苗——到全球性的——为全人类设计病毒疫苗——肽-MHC 结合这个简单而优雅的原理是我们的向导。它帮助我们引导免疫系统的力量，预见其危险，并设计出新一代更智能、更安全的药物。肽与 MHC 之间的舞蹈不仅仅是一个分子奇观；它是一种基本的免疫语言，通过学习预测其语法，我们终于在学习如何说这种语言。