首页序列基序

序列基序

玻尔百科

定义

序列基序是指在 DNA、RNA 和蛋白质中短小且重复出现的序列模式，它们是维持关键细胞过程的功能性指令。这些基序从精确序列到概率谱图不等，在基因组学和生物信息学中通过位置和排列构建起生物学“语法”。通过深入研究序列基序，科学家能够预测蛋白质功能，并利用深度学习等计算手段开发新型基因电路。

核心要点

序列基序是DNA、RNA和蛋白质中短小的、重复出现的模式，作为关键细胞过程的功能性指令。
基序的功能高度依赖于其上下文，其位置以及与其他基序的排列共同构成了一种生物学“语法”。
基序的种类多样，从精确、确定性的序列到灵活、概率性的图谱，后者可以用像HMMs这样的统计模型来描述。
理解基序使科学家能够预测蛋白质功能、设计新颖的遗传回路，并以更高的精度应用CRISPR等基因组编辑工具。
目前，诸如深度学习等先进的计算方法被用于破译复杂的调控网络，并从庞大的基因组数据集中发现新的基序。

引言

基因组常被称为“生命之书”，但阅读它并非从头到尾那么简单。这本浩瀚的分子文本是用一种特殊的语言写成的，其意义不仅通过单个字母传递，更通过嵌入序列中的功能性“单词”和“短语”来传达。这些短小的、重复出现的模式被称为序列基序，它们代表了分子生物学的基础词汇。识别和解释这些基序对于细胞执行其功能至关重要，对于科学家理解生命本身的逻辑也同样不可或缺。本文旨在应对破译这种生物学语言的挑战，超越线性序列，揭示其中隐藏的功能性指令。

本文将分两大章节引导您探索序列基序的世界。在第一章原理与机制中，我们将探讨基序的基本性质，从严格不变的模式到灵活的概率性图谱。我们将揭示支配其功能的“语法”，了解其位置和组合如何创造出复杂的调控逻辑。然后在第二章应用与跨学科联系中，我们将看到这种语言的实际应用，发现基序如何指导细胞内的物质运输、控制基因活动以及驱动基因组进化。我们还将探讨科学家们如今如何从阅读这种语言转向书写它，利用他们对基序的知识来设计新的生物系统。

原理与机制

想象一下，你正在尝试读一本所有单词之间的空格都被删除的书。起初，它看起来像一堆无法理解的混乱字母。但很快，你的大脑会开始识别出熟悉的模式——比如“the”和“and”这样的短词，然后是更长的词，直到句子及其含义开始显现。细胞也面临着类似的挑战。生物体的基因组是巨大的分子字母串，即核苷酸，而它们编码的蛋白质也是同样长的氨基酸串。为了执行其无数功能，细胞不能简单地逐个字母地阅读这些字符串。它必须识别出携带指令的特定“单词”和“短语”。这些隐藏在更长序列中有意义的模式，就是我们所说的序列基序。它们是分子生物学的词汇，理解它们的逻辑就像学习生命本身的语言。

代码中的词汇：从严格规则到概率图谱

那么，细胞——或者科学家——如何找到这些关键的词汇呢？最简单的方法是寻找一个精确不变的序列。想想DNA序列ATG，这是蛋白质合成的通用“起始”信号，或者TAA，这是“终止”信号之一。这些都是简短的、确定性的基序。在蛋白质的世界里，我们可能会发现一个高度特异性的模式，它构成了酶活性位点的核心。例如，搜索模式C-x(2)-C-x(12)-H-x(4)-C——其中C是半胱氨酸，H是组氨酸，x(n)是任意n个氨基酸残基的间隔区——可能会立即将一个蛋白质标记为潜在的锌结合蛋白，因为这种精确的排列是一个经典的锌指基序。像PROSITE这样的数据库最初就是作为这类严格、定义明确的模式的字典而建立的。研究人员拿到一个新的蛋白质序列，只需对照这本字典进行扫描，寻找已知的功能特征，这个过程通过像ScanProsite这样的工具变得非常容易。

但是，生物学在其壮丽的“粗糙”中，很少遵循绝对的刚性。进化利用现有材料进行创造，通常一个“词汇”可以容忍一些拼写变异，只要其核心含义得以保留。这就产生了一种更灵活、更具概率性的基序观点。一个功能区域可能不是由单一、严格的模式来描述，而是通过一个统计图谱来更好地描述，该图谱显示每个位置上最可能出现的氨基酸。这就是Pfam等数据库背后的哲学，它们使用隐马尔可夫模型 (HMMs) 等复杂模型。一个蛋白质结构域（蛋白质中稳定、有功能的部分）的HMM不仅定义了一个短基序，它还捕捉了整个结构域的统计本质，通常跨越一百个或更多的氨基酸。它从许多相关序列的比对中学习，哪些位置是绝对关键的，哪些位置可以有很大的变异。使用这种模型进行搜索会返回一个概率分数（一个E值），告诉你你的序列真正属于该家族的可能性有多大。

这种区别是深刻的。这就像通过精确拼写识别一个单词，与理解一首十四行诗的总体结构和节奏之间的差异。两者都是模式识别的形式，但后者捕捉到了一种更深层、更灵活的秩序。这种对来自多个相关序列的进化信息的依赖，也是现代生物信息学巨大力量的源泉。但它有一个有趣的局限性：如果一个蛋白质独立进化出其结构和功能，没有任何共同的祖先呢？在这种趋同进化的情况下，我们最好的预测工具可能会受到阻碍。如果一个旨在从进化历史中学习的程序被给予一个没有已知亲缘关系的序列，它就失去了其主要信息来源，其预测准确性可能会显著下降。看来，大自然书写同一个故事的方式不止一种。

生命的语法：为何位置和顺序至关重要

找到词汇只是第一步。要理解语言，你需要理解语法。在分子生物学中，一个基序的意义几乎总是取决于它的上下文——特别是它相对于其他基序的位置。

这种语法逻辑的一个极其简单的例子可以在大肠杆菌的复制起点oriC中找到，这是细菌染色体上指示“从这里开始复制”的地方。一个最小功能性的oriC需要两种不同类型的基序协同工作。首先，有几个拷贝的9个碱基对的序列（一个9-mer），作为起始蛋白DnaA的停靠位点。这是“在此结合”的信号。但仅有结合是不够的。在附近，有另一个区域包含三个重复的13个碱基对的序列（一个13-mer），该区域富含腺嘌呤(A)和胸腺嘧啶(T)。由于A-T对仅由两个氢键连接（而G-C对由三个氢键连接），这个区域本身就不稳定。当DnaA蛋白结合到它们的9-mer位点时，它们会对DNA螺旋施加张力，导致脆弱的、富含AT的13-mer区域“弹开”。这种解旋创造了“复制泡”，复制机器可以在此开始工作。任何一个基序都无法单独工作；它们的协同作用，通过其特定的排列得以实现，启动了整个复制过程。

这种语法可以变得异常复杂。考虑一下V(D)J重组过程，我们的免疫细胞利用这个过程从一组有限的基因片段中产生几乎无限多样的抗体。每个基因片段（V、D或J）的两侧都有一个重组信号序列 (RSS)。这个RSS本身就是一个复合基序，由一个保守的7个碱基对的片段（七聚体，CACAGTG）和一个保守的9个碱基对的片段（九聚体，ACAAAAACC）组成。但关键的语法规则在于它们之间的间隔区。这个间隔区可以是12或23个碱基对长。负责剪切和粘贴这些基因片段的RAG重组酶只会将一个侧翼为12-bp间隔区的片段连接到一个侧翼为23-bp间隔区的片段上。这就是著名的12/23法则。将12连接到12，或23连接到23，都是被禁止的。这个严格的规则施加了一种优美的组合逻辑，确保基因片段以正确的顺序组装。

也许最复杂的语法存在于真核基因的启动子中——即控制转录的调控区域。启动子是模块化基序设计的杰作。为了启动一个基因，巨大的RNA聚合酶II必须被招募。这是由一群称为通用转录因子的蛋白质完成的，每个因子都能识别其偏好的DNA基序。著名的TATA盒（TATAWAAR）位于转录起始位点（ $+1$ ）上游约 $-30$ 的位置，并由TATA结合蛋白结合。起始子元件（YYANWYY）与起始位点本身重叠。下游启动子元件或DPE（RGWYV）精确地位于 $+28$ 到 $+32$ 的位置。不同的启动子使用这些及其他基序（如BRE和TCT基序）的不同组合来微调基因表达。一个启动子可能有一个TATA盒，也可能是“无TATA盒”的，而依赖于起始子和DPE元件之间的合作。这种模块化创造了一种极其丰富和灵活的调控语言，从而可以对每个基因在何时何地表达进行极其精确的控制。

从序列到形状：作为结构蓝图的基序

基序的语言超出了DNA调控的范畴。蛋白质的一级序列——它的氨基酸串——包含了作为其最终三维结构蓝图的基序，并由此决定其功能。

一个经典的例子是罗斯曼折叠，这是一个在数千种结合核苷酸的酶中常见的结构域。这种折叠由重复的 $\beta\alpha\beta$ 单元（一个β-折叠，后跟一个α-螺旋，再后跟另一个β-折叠）构成。在这种折叠的最开始，在连接第一个β-折叠和第一个α-螺旋的紧密转角处，人们经常发现一个简单的、富含甘氨酸的基序：GxGxxG。因为甘氨酸没有侧链，它非常灵活，允许蛋白质主链形成一个急剧的弯曲。在最终的3D结构中，这个富含甘氨酸的环的主链酰胺基团形成了一个完美的小“摇篮”，在静电上非常适合结合像NAD这样的核苷酸辅因子的带负电的焦磷酸基团。在这里我们看到了一个直接而优雅的联系：一个简单的序列基序决定了一个特定的局部结构，而这个结构又执行了一个精确的生化功能。

这一原理使我们能够对整个蛋白质超家族进行分类。氨酰-tRNA合成酶是负责将正确的氨基酸连接到其相应的转移RNA(tRNA)上的酶，这是翻译遗传密码的关键一步。奇迹般地，这些酶分为两个完全不同的类别，I类和II类，它们被认为是从不同的祖先独立进化而来的。它们的结构不相关，甚至以不同的立体化学方式执行相同的化学反应。我们如何区分它们呢？通过它们的标志性基序。I类合成酶都围绕一个类似罗斯曼折叠的结构构建，并在其活性位点包含两个高度保守的基序：HIGH和KMSKS。II类合成酶具有完全不同的、基于反平行β-折叠的结构，并拥有自己独特的基序集。这些短序列是蛋白质深层进化历史及其基本机制不可磨灭的印记。

“基序”这个术语本身是一个嵌套概念层次的一部分。像同源异形盒基因这样的基于序列的类别，是由一个称为同源异形盒的180个碱基对的DNA基序的存在来定义的。其中一个子集，Hox基因，则由它们独特的基因组组织进一步定义，它们排列成共线簇，勾画出动物的身体轴线。而一个功能类别，同源异形基因，是由它们的突变表型来定义的——导致一个身体部位转变为另一个部位——这个群体包括但不限于许多Hox基因。这表明，序列基序这个单一概念，如何在多个生物组织层面上成为一个定义性特征。

阅读完整故事：整合性剪接密码

我们已经从简单的词汇，到语法规则，再到结构蓝图。但细胞通常必须一次性阅读和解释整页的文本，整合多个有时甚至是相互冲突的信号来做出决定。没有比可变剪接更好的例子了。

在真核生物中，基因被分割成蛋白质编码区（外显子）和非编码区（内含子）。基因被转录成RNA后，内含子必须由剪接体精确地移除。然而，细胞可以选择包含或排除某些外显子，从而从单个基因中创造出不同的蛋白质变体（异构体）。这是生物复杂性的一个主要来源。决定“包含”还是“跳过”一个外显子的决策，受制于科学家们开始称之为剪接密码的机制。

这不是一个简单的一对一密码。它是一个复杂的、整合性的系统，细胞的机器会权衡多种因素。这些因素包括外显子-内含子边界的核心信号（剪接位点），也包括外显子和内含子内部密集的短基序网络，这些基序充当剪接增强子（招募剪接体）或剪接沉默子（排斥剪接体）。RNA分子本身的物理结构也起作用，转录基因的RNA聚合酶的速度也是一个因素。甚至DNA被包装成染色质的方式——组蛋白修饰的模式——也能在RNA上留下影响剪接决策的印记。因此，剪接密码是一种概率性语言，最终结果由所有这些输入的总和决定。破译这个密码是计算生物学前沿的一项艰巨任务。

从翻译的简单起始和终止信号，到启动子复杂的语法，再到剪接密码的整合逻辑，生命的故事是用序列基序的语言写成的。它们是将基因与蛋白质、序列与结构、结构与功能联系起来的线索。学习阅读这种语言——发现词汇、破译语法、欣赏诗意——是现代生物学伟大而美丽的冒险。

应用与跨学科联系

在前面的讨论中，我们阐述了序列基序的基本原理——这些DNA、RNA和蛋白质中短小的、重复出现的模式，充当着生命语言中的功能性词汇。我们已经学习了这种语言的“语法”，理解了这些基序是如何构成和被识别的。现在，让我们踏上一段旅程，看看这种语言能做什么。我们即将见证这些简单的词汇如何组合起来，书写生物学的宏伟史诗，从单个细胞内的微观编排到广阔的进化叙事。我们将看到基序如何充当地址、开关和修复手册，以及科学家们在学会阅读这种语言后，如何开始亲自书写它。

破译生命蓝图

掌握任何语言的第一步是阅读和理解伟大的作品。在生物学中，这意味着破译基序以无数种方式编排生命过程的机制。通过识别这些模式，我们可以预测功能、理解调控，并解开写在我们基因组中的历史。

细胞邮政系统

想象一下细胞内部是一个繁华的都市。成千上万种不同的蛋白质，即城市的工人，在中心的工厂里合成，但它们必须各自到达其特定的工作场所——发电厂（线粒体）、出口办公室（内质网）或市政厅（细胞核）。这个令人难以置信的后勤壮举是如何在没有混乱的情况下发生的？答案就在于直接编码在蛋白质序列本身的分子“邮政编码”中。一个新合成的、注定要进入分泌途径的蛋白质通常以一段短的疏水性氨基酸开始，这是一个信号肽，意为“带我去内质网！”一个线粒体需要的蛋白质则携带另一种地址标签：一个N端序列，它会折叠成一种特殊的螺旋，一面带正电荷，另一面是疏水残基。这个基序就像一本护照，被线粒体表面的输入机器识别。这个系统是极其特异的；有些目的地仅由几个氨基酸编码。一个简单的C端标签，如丝氨酸-赖氨酸-亮氨酸，就是一张通往名为过氧化物酶体的小细胞器的明确无误的单程票。这是一个效率惊人、设计优雅的系统，一个依赖于序列基序简单逻辑运行的细胞邮政服务。

基因开关板

基因并非简单地处于开启或关闭状态；它们的活性是一曲精细调谐的交响乐，响应细胞的需求及其环境。这种调控的核心是作为基因开关板的序列基序。在细菌世界中，转录一个基因的决定始于一个称为启动子的DNA区域。该区域包含共有基序，例如著名的位于 $-10$ 位置的TATAAT序列和位于 $-35$ 位置的TTGACA序列。这些基序不仅仅是随机的字母；它们是一种名为sigma因子的蛋白质的特异性停靠位点，该因子引导RNA聚合酶到正确的起跑线上。通过在新的细菌基因组中搜索这些保守基序，生物信息学家可以立即勾画出其潜在基因回路的图谱，识别哪些基因可能在何种条件下被开启。

这个原理——基序定义功能——也延伸到了蛋白质本身。思考一下庞大而至关重要的G蛋白偶联受体（GPCRs）家族，它们是我们细胞表面的传感器，能检测从肾上腺素到光线，再到玫瑰花香的一切。这个庞大的家族根据其结构内埋藏的一系列保守基序被细分为多个类别。在一个跨膜螺旋末端存在DRY基序，在另一个跨膜螺旋中存在NPxxY基序，这就像一个功能指纹，将一个受体识别为巨大的“A类”家族成员，并为其传递信号到细胞内所经历的细微构象变化提供线索。这些基序是共享的组件、标准的零件，进化用它们构建了复杂的细胞通讯开关板。

基因组的动态景观

我们很容易将基因组看作是一本静态的、神圣的文本，但事实远非如此。基因组是一份动态的、活生生的文件，不断被编辑、重组和重新排列。在这里，序列基序同样是编辑者。在精子和卵细胞的形成过程中，我们的母源和父源染色体通过一种称为减数分裂重组的过程交换片段。这一遗传多样性的关键来源并非随机的；它被引导到特定的“热点”。在人类和许多其他哺乳动物中，这些热点由一个名为PRDM9的蛋白质识别的特定DNA基序所定义。PRDM9就像一个分子园艺师，结合到其目标基序上，并插上一个化学旗帜——一种特定的组蛋白修饰——告诉DNA切割机器，“在这里重组！” [@problem-id:2817187]。

在一个美丽的进化旁支故事中，一些物种，如鸟类和狗，已经失去了PRDM9基因。它们停止重组了吗？不，它们只是采用了不同的策略。在这些谱系中，重组机器被引导到基因组中那些已经开放且易于接近的区域，最显著的是活性基因的启动子区域。这种对比揭示了针对同一生物学问题的两种不同解决方案，证明了进化的独创性。类似的逻辑也支配着细菌如何整合外源DNA。像Chi位点这样的基序在细菌染色体上充当“欢迎垫”，向细胞的修复机器发出信号，在该位置整合新的DNA，从而为水平基因转移创造热点。我们自身的免疫系统执行了这一壮举的更壮观版本。它使用特定的序列基序来指导基因片段的精确剪切和粘贴，像洗牌一样重组它们，以创造数十亿种不同的抗体来对抗宇宙中的各种病原体。

用生命语言进行工程设计

一旦你理解了一种语言的规则，你就可以开始写自己的故事。这就是合成生物学和基因组编辑的精髓。科学家们不再仅仅是阅读生命之书；他们正在学习书写新的篇章。

合成生物学：编写新的遗传程序

在构建遗传回路时，不能简单地将编码正确蛋白质的DNA序列拼接在一起。DNA的语法和句法至关重要。为了确保一个合成构建体能够可预测地工作，工程师必须“驯化”序列。这个过程涉及对DNA进行仔细的“校对”，以移除任何可能被细胞误解的“禁用词”——有问题的基序。这些可以是“硬约束”，比如用于组装的限制性内切酶的识别位点，这会导致DNA被片段化。它们也可以是“禁用基序”，比如一个可能在错误位置启动转录的隐蔽启动子，或者一个可能使构建体在遗传上不稳定的重组热点。利用遗传密码的冗余性，工程师可以进行同义突变——在不改变最终蛋白质序列的情况下改变DNA密码子——来擦除这些干扰性基序。这相当于遗传学上的精挑细选，以确保你的信息清晰明确。

基因组编辑：重写生命之书

CRISPR-Cas9革命为切割DNA提供了一对惊人精确的分子剪刀。但是在切割之后会发生什么呢？细胞自身的修复团队接管了工作，而它们遵循自己内部的规则手册。一个关键的见解是，这种修复的结果并非随机的；它受到局部序列环境的强烈影响。一个主要的修复途径，称为微同源介导的末端连接 (MMEJ)，由恰好位于DNA断裂处两侧的短小的、相同的序列基序（微同源序列）引导。修复机器抓住这些匹配的序列来缝合断裂的末端，从而可靠地产生一个可预测的缺失。通过理解这一点，科学家现在可以构建预测模型，分析计划的CRISPR切割点周围的序列，并预测最可能的修复结果。这将基因组编辑从一个粗糙的工具转变为一个可预测的工程学科，其中可以利用局部序列基序的微妙影响来实现预期的结果。

前沿：用机器学习语言

尽管我们已经学到了很多，但遗传密码的大片区域仍然知之甚少。调控网络的巨大复杂性，例如控制可变剪接的网络，已经挑战了人类的分析能力。正是在这里，与人工智能的新合作正在开辟一个激动人心的前沿。

逆向工程剪接密码

在我们的细胞中，基因通常被分割成编码区（外显子），由非编码的间隔区（内含子）隔开。转录后，一个称为剪接体的复杂机器会切除内含子并将外显子连接在一起。通过选择不同的外显子组合，一个基因可以产生许多不同的蛋白质。这种“可变剪接”由一个由数百种不同序列基序组成的、令人眼花缭乱的复杂“剪接密码”所控制，这些基序充当增强子或沉默子。

手动破译这个密码是一项艰巨的任务。但现在，科学家可以利用强大的深度学习模型，如卷积神经网络 (CNNs)，对海量的基因组序列和来自细胞的相应剪接数据进行训练。这些模型在没有被明确编程生物学规则的情况下，学会“阅读”序列并准确预测剪接结果。真正神奇的部分在后面。通过使用巧妙的解释技术来窥探训练好的模型“内心”，研究人员可以问：你学到了什么？他们可以提取出模型认为对其预测最重要的模式——即基序。这种方法就像发现了一块罗塞塔石碑。它不仅重新发现了我们已经知道的基序，证实了它们的功能，更重要的是，它揭示了全新的基序。它能告诉我们这些基序在哪里起作用，以及它们是增强还是沉默剪接，从而在我们从未了解的遗传语言方言中揭示了新的词汇。

从蛋白质的安静分拣到染色体的剧烈重排，从遗传回路的精心设计到新调控元件的计算发现，故事都是一样的。序列基序，以其简单性和多功能性，是生物世界中最基本、最强大的操作符之一。理解这种语言的旅程远未结束，但随着每一个新发现和每一项新技术，我们都变得更加流利，并不断惊叹于生命的深邃复杂竟能用如此优雅的字母书写。