剪接突变

玻尔百科

定义

剪接突变是指破坏前体信使RNA（pre-mRNA）编辑过程的遗传变异，该过程通常根据GT-AG规则等序列信号切除内含子并将外显子连接。此类突变会导致外显子跳跃或内含子保留等错误，从而产生功能缺陷或缺失的蛋白质，甚至通过干扰剪接机制引发癌症等疾病。在分子生物学领域，针对剪接突变的研究已促成外显子跳跃等革命性疗法，通过人工干预剪接过程来恢复蛋白质的部分功能。

核心要点

剪接是细胞内一项基础过程，通过移除不编码的内含子并连接编码的外显子来编辑前体 mRNA，这一过程由 GT-AG 法则等特定的序列信号指导。
剪接突变通过破坏这些信号而导致疾病，引发外显子跳跃或内含子保留等错误，从而产生有缺陷或缺失的蛋白质。
除了简单的错误，剪接机器本身的突变可以通过系统性地引起大量基因的错误剪接来驱动癌症等疾病。
对剪接的研究催生了革命性的疗法，例如杜氏肌营养不良症中的外显子跳跃，该疗法通过特意修饰剪接过程来恢复部分功能的蛋白质。

引言

我们的遗传密码常常被比作一张蓝图，但一个更贴切的比喻或许是一份充满了必要指令和无关笔记的草稿。在这份草稿能够成为一个功能性蛋白质之前，它必须经历一个名为 RNA 剪接的关键编辑过程。这个过程会移除不编码的序列（内含子），并将至关重要的编码区域（外显子）连接起来，从而创造出一条最终连贯的信息。剪接的精确性对细胞功能至关重要，然而这个复杂的系统却容易出错。本文要解决的核心问题是，当这种遗传语法被剪接突变——一些可能导致一系列毁灭性人类疾病的“拼写错误”——所破坏时，会发生什么。本文将分为两部分，引导您了解这个复杂的世界。首先，“原理与机制”一章将深入探讨剪接的分子规则、所涉及的机器，以及突变破坏这一过程的各种方式。随后，“应用与跨学科联系”一章将探讨这些错误在遗传性疾病、癌症和神经退行性疾病中的深远实际后果，同时还将重点介绍对这些错误的理解如何为革命性的新疗法铺平道路。

原理与机制

要理解我们遗传密码中一个错位的字母如何导致疾病，我们必须首先进入细胞的核心，见证其最精巧和最基本的过程之一。想象一下，我们的 DNA 不是一本写完的小说，而是一份初稿，充满了精彩的文字，但也夹杂着潦草的笔记、划掉的段落和无关的想法。在这份手稿能被阅读和理解之前——也就是说，在一个基因能转变为功能性蛋白质之前——它需要一位编辑大师。这位编辑就是一种称为剪接的过程，其工作是将草稿转化为精美的最终稿。

基因的初始副本，称为前体信使 RNA (pre-mRNA)，包含两种类型的区域：外显子，即携带构建蛋白质实际指令的部分；以及内含子，即必须被移除的插入的非编码序列。剪接就是精确切除内含子，并将外显子拼接在一起，形成一条连贯的最终信息——成熟的信使 RNA (mRNA)。但细胞的机器是如何知道在哪里切割的呢？答案在于 RNA 序列本身所编写的一种微妙的语法。

剪接的语法

大自然以其无穷的智慧，设计了一套简单而强大的密码来指导剪接过程。这个“剪接密码”由短的保守序列组成，它们如同标点符号，标志着每个内含子的开始和结束。

最基本的规则是 GT-AG 法则（在 RNA 语言中为 $GU-AG$ ）。在几乎每个内含子的 $5'$ 端，即其起始处，我们都会发现双核苷酸序列 $GU$ 。在其 $3'$ 端，即内含子结束处，我们则会发现序列 $AG$ 。这些是细胞编辑器的主要“在此切割”信号。

但事情并非那么简单。为确保精确性，剪接机器依赖于额外的线索。在内含子内部，离最终的 $AG$ 不远处，有一个关键的核苷酸，称为分支点。这个特定的腺苷 ( $A$ ) 是整个操作的化学关键；它对内含子起始处的 $GU$ 发起初次攻击，开始形成一个环状结构，即套索，随后该结构被切除。在分支点和最终的 $AG$ 之间是另一个路标，即多嘧啶序列，这是一段富含胞嘧啶 ( $C$ ) 和尿嘧啶 ( $U$ ) 的序列，充当剪接机器的着陆平台。

整个编辑过程由一个宏伟的分子机器——剪接体——执行。剪接体远非一把简单的剪刀，它是一个由蛋白质和小核 RNA (snRNA) 组成的动态复杂组装体，在 pre-mRNA 转录本上以精心编排的舞蹈方式聚合。U1 和 U2 snRNP 等组分是“阅读器”，它们分别识别 $GU$ 供体位点和分支点，从而启动这个复杂的细胞工厂的组装。

当遗传手稿出现瑕疵

剪接突变本质上是破坏了这种精巧语法的“拼写错误”。一个不正确的字母就可能迷惑剪接体，导致最终信息错乱，蛋白质功能失常。这些错误可分为几个有趣的类别。

标点破坏：规范剪接位点突变

最直接的错误发生于突变击中了内含子边界上关键的 $GU$ 或 $AG$ 信号。剪接体准备就绪，但主要的标点符号却丢失或损坏了。在困惑中，它可能会采取以下几种行动之一：

外显子跳跃： 机器可能完全无法识别外显子的边界，干脆跳过它，将前一个外显子与后一个外显子连接起来。这导致蛋白质蓝图中的一大块被删除，通常带来灾难性后果。这正是在家族性自主神经功能异常等疾病中发生的情况，也是导致脊髓性肌萎缩症的 SMN2 基因的关键缺陷。
内含子保留： 另一种可能是，剪接体根本无法移除内含子。这些不编码的“乱码”被保留在最终的 mRNA 中，导致产生一种无意义且通常无功能的蛋白质。

伪造标点：隐蔽剪接位点激活

也许更隐蔽的是，突变不必破坏现有规则，它可以创造一个非法的“新规则”。内含子中的单个核苷酸变化可能意外地创造出一个看起来像合法剪接位点的序列——即所谓的隐蔽剪接位点。

想象在一个假设的基因 HYPOTHETIN 中，一个点突变将内含子中的一个胞嘧啶变为鸟嘌呤。如果这个变化恰好发生在一个腺嘌呤之后，一个新的、隐蔽的 $AG$ 受体位点就诞生了。剪接体在扫描序列时，可能会识别这个伪造的信号，并在那里进行切割，而不是在正确的边界处。结果是，一部分内含子被错误地包含在最终的 mRNA 中。如果类似的事件在内含子深处创造出一个“假外显子”，就像在某些形式的 $\beta$ -地中海贫血中看到的那样，它可能会将一段非编码序列插入到信息中，从那一点开始扰乱蛋白质的配方。

隐藏的语言：外显子剪接增强子和沉默子

遗传学中最深刻的发现之一是，遗传密码在多个层面上同时运作。那串告诉核糖体添加哪种氨基酸的字母序列，同时也包含了指导剪接体的第二套重叠密码。

在外显子内部，存在着被称为外显子剪接增强子 (ESE) 和外显子剪接沉默子 (ESS) 的序列。它们充当调控信号。一个 ESE 就像一支亮黄色的荧光笔，吸引那些告诉剪接体“这个外显子很重要！确保你把它包含进来！”的蛋白质。而一个 ESS 则起相反作用，像一个“闲人免进”的标志。

这解释了一个令人费解的现象：有时，一个甚至不改变氨基酸序列的突变也会导致疾病。在一个假设的 Gene Z 中，外显子内一系列这样的“同义”突变可能导致该外显子在神经细胞中被完全跳过。这些突变没有直接改变蛋白质配方，但它们抹去了一个关键的 ESE。没有了荧光笔的标记，剪接体忽略了这个外显子，导致最终产物有缺陷。这揭示了一个美妙的复杂层面：我们基因的意义不仅在于“词语”本身，还在于它们的呈现方式。

两种编辑器的故事

为了增加另一层精巧性，细胞并不仅仅拥有一种编辑器。绝大多数内含子遵循 $GU-AG$ 法则，并由主要剪接体处理。然而，一小部分内含子使用不同的语法，通常以 $AU$ 开始，以 $AC$ 结束。这些由第二个专门的机器处理：次要剪接体。这两个系统具有极高的特异性。如果你拿一个次要内含子，并将其边界“修正”为主要的 $GU-AG$ 格式，你并不会让它更容易剪接。相反，你会制造出一个令人困惑的混合体，主要剪接体和次要剪接体都无法正确处理，导致该内含子的剪接完全停止。这凸显了我们细胞机器令人难以置信的精确性和专业化。

细胞的最后一道防线：无义介导的降解

如果尽管有所有这些规则，一个有缺陷的 mRNA 还是产生了，会发生什么？细胞拥有最后一个、巧妙的质量控制系统，称为无义介导的降解 (NMD)。

当剪接体连接两个外显子时，它会在连接处的上游留下一个名为外显子连接复合物 (EJC) 的小分子标记。在翻译过程中，核糖体沿着 mRNA 移动，读取密码子，并在经过时将这些 EJC 标记撞掉。在正常的 mRNA 中，核糖体会在到达信息末尾的正常终止密码子之前，清除所有的 EJC。

然而，许多剪接错误，如移码或假外显子引入，会产生一个提前终止密码子 (PTC)——一个出现得过早的停止信号。如果核糖体撞上一个 PTC 并停止，而下游仍有 EJC 标记存在，细胞就会意识到出了大问题。这种组合——一个停止的核糖体和下游的 EJC——是触发 NMD 的信号。整个有缺陷的 mRNA 会被立即销毁。这是一个至关重要的保护机制，防止细胞浪费资源制造一个被截断且可能有毒的蛋白质。它解释了为什么许多剪接突变会导致蛋白质的简单丢失，这种情况被称为单倍剂量不足。

归根结底，复杂的剪接之舞证明了我们基因组信息丰富的层次性。它是一种具有非凡深度的语言，其意义不仅通过主要密码传达，还通过标点、调控标记和上下文线索的丰富织锦来表达。研究剪接突变的过程，就是学习这种语法，破译一个错位的逗号或一条伪造的指令如何改变我们基因中写下的整个故事。

应用与跨学科联系

诗人 William Blake 曾劝诫我们“一沙一世界”。在分子生物学中，我们发现了类似的启示。中心法则——信息从 DNA 流向 RNA，再到蛋白质——看似简单，一条清晰的线性路径。然而，这种简单是一种错觉。在一个基因的原始遗传脚本和最终功能性蛋白质之间，存在着一个具有非凡艺术性和复杂性的过程：RNA 剪接。想象一个基因不是一条单一、连续的指令，而是一部电影剧本，其中包含必要的场景（外显子），并穿插着导演的笔记、删减片段和脚手架（内含子）。剪接体就是电影剪辑大师，其任务是剪掉所有内含子，并将外显子拼接在一起，创造出最终版本——将被核糖体“放映”以产生蛋白质的信使 RNA (mRNA)。

这个系统的美妙之处在于其灵活性。但其复杂性也正是其脆弱性所在。当剪辑师犯错时会发生什么？或者当剧本本身包含一个让剪辑师困惑的拼写错误时呢？其后果并非抽象，而是用人类健康与疾病的语言写成的。

破碎的蓝图：剪接错误与遗传病

剪接过程中的缺陷最直接的后果是单基因病，即单个功能失常的基因造成严重破坏。以 β-地中海贫血为例，这是一种严重的贫血症。其病因是 β-珠蛋白的量性缺陷，而 β-珠蛋白是血红蛋白的关键组成部分。在许多情况下，问题并非出在直接改变蛋白质结构的编码外显子突变上。相反，它是一个微妙的错误，非编码内含子序列中一个字母的改变。这个微小的“拼写错误”会破坏一个关键的剪接位点信号。剪接体被错误的指令所迷惑，可能无法移除一个内含子，或者可能使用了一个本不该使用的邻近“隐蔽”剪接位点。结果是一条错乱的 mRNA 信息，导致蛋白质被截断或不稳定。工厂仍然拥有 β-珠蛋白的蓝图，但在一个关键步骤上，组装说明被误解了，导致功能性蛋白质产量急剧下降。

同样地，剪接错误导致蛋白质功能丧失的原理在医学遗传学中反复出现。在 X-连锁无丙种球蛋白血症 (XLA) 这种严重的免疫缺陷病中，男孩出生时就无法产生与成熟的 B 细胞和抗体。罪魁祸首通常是 Bruton 酪氨酸激酶 ( $BTK$ ) 基因的突变，这是一种对 B 细胞发育至关重要的蛋白质。同样，剪接位点的突变是常见原因。通过导致外显子跳跃或内含子保留，最终的 $BTK$ mRNA 被破坏。细胞的质量控制机制，特别是名为无义介导的降解 (NMD) 的系统，通常会识别并摧毁这些异常转录本，甚至在它们被翻译之前。其结果是功能性 BTK 蛋白几乎完全缺失，对免疫系统造成毁灭性后果。

这些缺陷在 RNA 水平上显现，这对诊断具有深远影响。仅仅对患者 DNA 的编码区进行测序可能完全错过问题所在。要真正理解功能障碍，我们必须成为分子侦探，研究 RNA 本身。在一个疑似半乳糖血症（一种遗传性代谢病）的病例中，临床医生可能会在某个外显子-内含子边界附近发现一个突变。为了确认其影响，他们不能只看 DNA；他们必须从患者细胞中提取 RNA，将其逆转录为互补 DNA (cDNA)，然后扩增并测序目标区域。这种技术，即逆转录 PCR (RT-PCR)，使我们能够精确地看到剪接体做了什么——是跳过了一个外显子，保留了一个内含子，还是犯了其他错误。这为剪接缺陷提供了确凿的证据，并解释了为何 GALT 酶缺失，从而证实了新生儿筛查首次标记的诊断。

导演剪辑版：健康与疾病中的可变剪接

剪接体的作用不仅仅是刻板地遵循一个剧本。它也是一位有创造力的导演。对于大量的人类基因，外显子可以以不同的组合方式拼接在一起，这一过程称为可变剪接。这使得单个基因能够产生一整个家族相关但又截然不同的蛋白质。这不是一个错误，而是我们生物复杂性的核心特征。

这一点在人脑中表现得最为明显。以 tau 蛋白为例，它因在阿尔茨海默病中的作用而臭名昭著。编码 tau 的基因 MAPT 会进行可变剪接。一个关键事件是决定包含还是排除外显子 $10$ 。如果包含外显子 $10$ ，产生的蛋白质在其微管结合域中将有四个“重复” ( $4\mathrm{R}$ tau)。如果排除它，则只有三个 ( $3\mathrm{R}$ tau)。在健康的成年大脑中，剪接体维持着这两种亚型之间近乎 $1:1$ 的精妙平衡。在阿尔茨海默病的悲剧性病理中， $3\mathrm{R}$ 和 $4\mathrm{R}$ 形式都会聚集成扼杀神经元的神经原纤维缠结。

但如果这种剪接平衡的调控本身就是主要问题呢？这正是在某些形式的额颞叶痴呆 (FTLD) 中发生的情况。在这些疾病中，可能发生的突变并不直接改变蛋白质序列，而是改变了告诉剪接体应以何种频率包含外显子 $10$ 的调控序列。这使得 $3\mathrm{R}:4\mathrm{R}$ 的比例发生倾斜，扰乱了神经元功能，并导致一种独特的神经退行性疾病。这揭示了一个更深层次的真理：问题不仅在于正确的剪接，还在于正确调控的剪接。

破坏导演：当剪接机器本身发生突变

我们已经看到了当剧本（基因）有缺陷时会发生什么。但如果电影剪辑师——剪接体本身——受到了损害呢？这不是一个假设性问题。它是几种癌症，特别是血癌发展的核心机制。

在骨髓增生异常综合征 (MDS)——一组以无效血细胞生成为特征的癌症中，我们发现在编码剪接体核心组分的基因中存在反复出现的突变，例如 $SF3B1$ 、 $SRSF2$ 和 $U2AF1$ 。这些并非简单的功能丧失性突变。相反，突变的剪接因子获得了一种新的、邪恶的功能。它们对所结合的 RNA 序列产生了改变的偏好，导致它们系统性地错误剪接成百上千种不同的转录本。例如， $SF3B1$ 中最常见的突变导致它识别并使用正常剪接体本会忽略的“隐蔽” $3'$ 剪接位点。

其后果是谱系特异性和病理学上独特的。 $SF3B1$ 的突变以与一种以“环形铁粒幼细胞”为特征的 MDS 亚型相关而闻名——即红系前体细胞的细胞核周围环绕着富含铁的线粒体。这是对线粒体铁代谢至关重要的基因（如 $ABCB7$ ）错误剪接的直接结果。相比之下， $SRSF2$ 的突变则与髓系-单核细胞表型相关，部分原因是通过导致关键表观遗传调控因子（如 $EZH2$ ）的错误剪接 [@problem_-id:4872913]。这些突变不仅仅是旁观者，它们是驱动事件。它们的存在与否现在被用于复杂的预后评分系统，如用于原发性骨髓纤维化的 MIPSS70，以预测疾病进程并指导治疗决策，例如骨髓移植的时机。剪接机器的状态直接决定了患者的预后。这种联系也见于实体瘤，如葡萄膜黑色素瘤，其中 $SF3B1$ 的突变定义了该疾病的一个主要分子亚型。

这些机制的微妙之处可能非常深奥。想象一位癌症生物学家在研究一个肿瘤时发现，一种关键的肿瘤抑制蛋白——视网膜母细胞瘤蛋白 (Rb)——完全缺失。然而，当他们测序 $RB1$ 基因时，却发现它完全正常。如果基因完好无损，蛋白质怎么会消失呢？答案可能在于一个受损的剪接体。像 $SF3B1$ 这样的剪接因子的突变可能导致 $RB1$ pre-mRNA 的异常剪接。由此产生的有缺陷的 mRNA 很可能被细胞的质量控制系统降解，从而永远不会产生功能性的 Rb 蛋白。肿瘤抑制因子并非因其基因受到直接打击而丢失，而是由于被破坏的剪接设备造成的附带损害。

破解蓝图：作为治疗革命的剪接

如果错误的剪接可以导致疾病，我们能否操纵它以获得治疗益处？这个问题开启了现代医学中最激动人心的前沿之一。我们现在正从剪接的观察者转变为其构建者。

这场革命的典范是杜氏肌营养不良症 (DMD) 的治疗。DMD 是一种毁灭性的肌肉萎缩性疾病，通常由巨大的抗肌萎缩蛋白基因中的“移码”突变引起。想象遗传密码是一句由三字母单词组成的句子。一个移码突变，例如删除了一个非三的倍数的字母数，会使句子余下的部分完全变成乱码，很快就会遇到一个提前的终止信号。结果是没有功能性的抗肌萎缩蛋白。

这种被称为外显子跳跃的治疗策略异常简单。科学家设计一种小的合成分子，即反义寡核苷酸 (AON)，充当分子面具。AON 被设计用于结合抗肌萎缩蛋白 pre-mRNA 中的特定外显子，将其对剪接体隐藏起来。剪辑师看不到这个外显子，便直接跳过它，将前一个外显子与后一个外显子缝合在一起。诀窍在于选择一个其移除能够恢复三字母阅读框的外显子。新的“句子”变短了，少了一些词，但它又可以一直读到结尾了。这将一个框外突变转变为一个框内突变。患者的细胞不再产生零蛋白（DMD 表型），而是产生一个更短但部分功能性的抗肌萎缩蛋白，类似于在症状轻得多的贝克型肌营养不良症 (BMD) 中看到的那样。这是一个理性设计分子药物的惊人例子——通过故意“破解”剪接过程，将一个致命的错误转变为一个可控的错误。

然而，当我们开发这些强大的工具时，我们也发现了癌症狡猾的适应性。在 B 细胞急性淋巴细胞白血病 (ALL) 中，CAR T 细胞疗法——通过改造患者自身的 T 细胞来识别癌细胞上的 CD19 抗原——已成为一项突破。但有时，癌症会复发。它是如何逃脱的？一种已证实的机制是，癌细胞自身开始对 CD19 基因进行可变剪接，特别是跳过外显子 2，而该外显子恰好编码 CAR T 细胞被设计来识别的那个表位。白血病细胞实际上使自己对治疗隐形了。这场进化上的博弈迫使我们设计更智能的疗法。为了应对这种情况，研究人员正在开发可以同时识别 CD19 和另一种抗原（如 CD22）的“双靶点”CAR，或者能够识别 CD19 本身上两个不同、不重叠表位的串联 CAR。如果癌细胞通过剪接去掉一个靶点，另一个靶点仍然存在，T 细胞就仍然可以攻击。

剪接的故事是一个隐藏的生物信息层的故事，一个动态、受调控且绝对至关重要的信息层。从导致毁灭性的遗传病到驱动癌症的进化，再到为革命性的新疗法提供途径，剪接体的舞蹈是一场生命的根本大戏，一个我们才刚刚开始完全理解和欣赏的美丽而复杂的过程。