核糖体结合位点（RBS）文库：基因表达工程指南

玻尔百科

核心要点

RBS通过调节mRNA与核糖体之间的结合强度来控制蛋白质的产生，这一过程由序列和结构决定。
合成生物学家创建具有多样化、可预测强度的RBS文库，以在宽广的动态范围内精确调节基因表达。
测量RBS强度需要使用报告基因和比率技术来分离翻译效应，以矫正细胞环境的影响。
RBS文库是工程应用的基础，例如平衡代谢途径和构建可预测的基因线路。

引言

几十年来，生物系统工程化的能力一直受制于基本精度的缺乏。尽管科学家能够将基因插入细胞，但控制这些基因产生多少蛋白质仍然是一个挑战，好比用未经校准、不可预测的电阻来构建电子线路。这一差距限制了工程化生物功能的复杂性和可靠性。核糖体结合位点（RBS）文库的开发提供了解决方案：一套标准化的遗传元件工具包，它们就像调节蛋白质表达的旋钮，具有卓越的准确性。这项创新在将合成生物学从一门试错性的手艺转变为一门可预测的工程学科方面起到了关键作用。

本文深入探讨RBS文库的世界，为其原理和应用提供了一份全面的指南。在第一章“原理与机制”中，我们将探索主导翻译起始的分子握手机制，考察RBS的序列、结构和间距如何决定其强度。我们还将揭示创建和精确测量这些元件的大型文库的方法。随后，在“应用与跨学科联系”中，我们将看到如何利用这种控制来设计复杂的生物系统，从优化用于工业生产的代谢途径到编排基因线路的复杂逻辑。通过理解这些元件，我们得以洞察现代生物工程的基础。

原理与机制

想象一下你正在尝试构建一个复杂的电子线路。你拥有电阻、电容和晶体管，但如果从盒子中取出的每个电阻的阻值都完全是个谜，情况将会怎样？或者更糟的是，如果其电阻值会随着室温变化。那么构建任何可靠的东西都将是一场噩梦！几十年来，这正是试图改造活细胞的生物学家所面临的挑战。他们拥有元件——基因——但缺乏精确控制每个基因制造多少蛋白质的“电阻”。核糖体结合位点（RBS）的发现和工程改造改变了一切。它为我们提供了合成生物学家仪表盘上最关键的控制旋钮之一。

我们的目标不仅仅是“开启”或“关闭”一个基因，而是将其表达量调节到一个特定的、期望的水平。也许一个基因开关需要一个阻遏蛋白的浓度恰好是其最大可能浓度的15%才能正常工作。要达到这种精确度，我们不能只使用一个简单的开关；我们需要一个刻度精细的旋钮。RBS就是那个旋钮。在本章中，我们将揭开帷幕，探索使这个旋钮工作的优美物理原理，我们如何构建一整套这样的工具，以及我们学到的在活细胞这个奇妙而混乱的环境中读取其设定的巧妙方法。

分子握手：RBS如何工作？

所有生命的核心是中心法则所描述的信息流：DNA被转录成信使RNA（mRNA），然后mRNA被翻译成蛋白质。翻译由一个宏伟的分子机器——核糖体——执行。你可以把核糖体看作一台3D打印机，而mRNA是它的指令带。指令带穿过机器，机器读取代码并组装成一条氨基酸链——即蛋白质。

但要开始这个过程，首先必须发生一个关键事件：核糖体必须抓住mRNA带并将其完美对齐，以便它能准确知道“起始”指令在哪里。这项对齐工作就是核糖体结合位点的任务。在像*大肠杆菌*这样的细菌中，这个过程的关键是一个优美而简单的分子识别实例——mRNA与核糖体自身之间的一次“分子握手”。

mRNA上的一段短核苷酸序列，即Shine-Dalgarno（SD）序列，准备好进行握手。它的伙伴是一个互补序列，即反Shine-Dalgarno（anti-SD）序列，位于16S核糖体RNA的末端，而16S rRNA是核糖体小亚基（30S）的核心组成部分。SD序列通常富含嘌呤，其共有序列为5'-AGGAGG-3'。anti-SD序列与之互补，使它们能像分子魔术贴一样配对。这种结合将核糖体锚定在mRNA的正确位置上，将至关重要的'AUG'起始密码子置于核糖体的P位点，为开始蛋白质合成做好准备。。有些mRNA根本没有前导序列，直接以起始密码子开始；这些被称为无前导转录本，它们通过一种完全绕过这种握手机制的不同方式起始翻译。

这次握手的强度决定了一切。这只是一个简单的化学问题：mRNA上的RBS序列与核糖体的anti-SD序列匹配得越完美，结合就越稳定，翻译起始的频率就越高。像AGGAGG这样的序列形成了一次完美的、强有力的握手，导致高水平的蛋白质生产。像AGGAAG这样的序列有一个错配，削弱了结合力，导致中等表达水平。而像GA[TTA](/sciencepedia/feynman/keyword/test_time_augmentation)C这样几乎没有相似性的序列则几乎无法结合，导致极低的表达量。强度还对间隔区距离——即SD序列与起始密码子之间的碱基数——以及mRNA是否会折叠成可能将SD序列隐藏起来的二级结构十分敏感。所有这些因素共同决定了最终的翻译起始速率。

从单个旋钮到整个仪表盘：设计RBS文库

了解原理是一回事，但拥有一整套元件是另一回事。为了真正控制一个基因线路，合成生物学家需要一个具有宽广且可预测强度范围的RBS文库。如何创建这样一个工具包呢？

答案在于化学合成的一种极其巧妙的应用。在合成最终将被转录成我们RBS的DNA时，我们不必指定一个精确的序列。我们可以指示合成仪在特定位置使用简并碱基。例如，我们可以在一个位置上指定'N'，这意味着将等摩尔的四种碱基（A、T、G、C）混合物掺入。或者我们可以用'S'来代表G和C的混合物。通过设计一个像5'-WSAGNT-3'这样的短引物，我们不是在创造一个序列，而是在一次性创造出许多序列的组合爆炸。一次简单的合成就能在一个试管中产生数千甚至数百万个独特的RBS变体。

这样一个文库的效用体现在其动态范围上，即最强成员与最弱成员的强度之比。一个跨越6000倍表达范围的文库，为工程师在几个数量级上调节蛋白质水平提供了极大的灵活性。这套预先校准的旋钮是现代可预测基因工程的基础。

读取旋钮：我们如何测量RBS强度

一旦你创建了一个庞大的潜在RBS元件文库，你如何确定每个旋钮的设定值呢？你必须测量它们。标准方法是将文库中的每个RBS变体置于一个报告基因的上游，最常用的是产生绿色荧光蛋白（GFP）的基因。产生的蛋白质越多，细胞发出的荧光就越亮，这为我们提供了RBS强度的直接、定量的读数。

然而，良好科学的一个关键原则是需要分离变量。我们想要测量的是RBS对翻译的影响，而不是其他任何因素。如果我们的测量系统也有一个可变的启动子（控制转录），我们就无法知道明亮的信号是由于强RBS还是强启动子造成的。因此，表征RBS文库的首要规则是将其置于一个单一的、强效的、组成型启动子之后。这确保了文库中的每个RBS变体都从相同且恒定的mRNA转录本流开始。最终荧光的任何差异都可以正确地归因于RBS起始翻译的能力。

对于大型文库，我们需要能够快速测量数百万个变体的方法。两种主要思路应运而生：

筛选（普查法）： 这种方法旨在为文库中的每个成员获得一个定量测量值。这项工作的主力是荧光激活细胞分选（FACS）。一台机器将含有不同RBS变体的细胞培养液以单列形式通过激光束。激光使细胞发出荧光，检测器测量每个细胞的亮度。在一个下午的时间里，我们可以收集数千万个数据点，从而获得整个文库强度的一个丰富、连续的分布。这些定量数据对于构建预测模型是无价的。
选择（淘汰赛法）： 这种方法不是测量每个成员，而是设置一个挑战，只有“最适者”才能生存。例如，我们可以将RBS文库与一个提供抗生素抗性的基因连接起来。当我们在含有抗生素的培养基中培养细胞时，只有那些RBS足够强以产生足量抗性蛋白的细胞才能存活和繁殖。几代之后，这些表现优异的变体将主导整个培养物。通过对存活者进行测序，我们可以快速识别出“获胜者”。选择法对于在大型文库中寻找最佳元件非常强大，但它就像一个数字滤波器——我们只知道谁通过了门槛，而不知道所有参与者的定量强度。

通用规则手册之梦：预测模型

工程的最终目标不仅是构建和测试，更是设计和预测。我们梦想有一本“通用规则手册”，让我们能够输入任何RBS序列，然后模型就能准确预测其强度。这将把合成生物学从一门试错性的手艺转变为一门真正的工程学科。为了实现这个梦想，人们正在探索两条主要途径。

物理学家的途径（机理模型）： 这种方法试图模拟分子握手的底层物理过程。它计算相互作用的总自由能（ $\Delta G_{\text{total}}$ ）。这个能量是几个项的总和：RBS序列与核糖体结合产生的有利能量，但也要加上解开mRNA中可能阻碍该位点的任何二级结构所需的能量代价。利用热力学定律，模型可以根据这个能量值预测翻译速率[@problem_gdid:2065093]。这样一个模型的深远之美在于其外推能力。因为它基于基本原理，所以可以对它从未见过的情况做出预测。例如，它可以预测如果你降低温度（这会影响所有结合能），RBS强度将如何变化，甚至可以预测如果你将RBS放入一个其核糖体具有略微不同anti-SD序列的不同细菌物种中会发生什么！
统计学家的途径（黑箱模型）： 这种方法由筛选实验产生的大量数据集驱动，使用机器学习。例如，向一个深度神经网络展示数以万计的RBS序列及其测得的表达水平。它通过统计模式识别，学习序列中与高或低表达相关的复杂、微妙的特征。这些模型并不“理解”自由能的物理学，但它们在内插方面可以惊人地准确——即为与训练时见过的数据相似的新序列做出预测。但如果你让它预测在不同温度下会发生什么——一个它从未被训练过的条件——它很可能会失败，因为它没有温度的概念。

未来可能在于结合这两种思想——利用物理学来指导机器学习模型，使它们既具有预测能力，又根植于现实。

拥抱混乱：生物测量的现实

任何优秀的物理学家都知道，描述世界的简单模型是美妙的，但必须时刻警惕混杂因素。生物学以其演化而来的复杂性，充满了这些因素。设计一个元件是一回事；在一个活生生的细胞内部获得对其功能的清晰、可靠的测量则是另一项挑战。

假设你设计了一个出色的RBS。你把它放进一个质粒里，它发出了超强的信号。你断定这是一个强RBS。但如果由于某种生物学的怪癖，细胞制造了100个你的质粒拷贝，而对于一个“较弱”RBS的质粒只制造了10个拷贝呢？你的测量结果就被质粒拷贝数变异所混淆。或者，如果你的RBS序列意外地包含了一个隐秘启动子——一个能招募细胞转录机器的序列，从而产生了额外的mRNA并夸大了信号呢？要成为一名优秀的科学家，你必须成为一名优秀的侦探，使用特定的实验控制——比如用qPCR计数质粒或在无启动子载体中测试你的RBS片段——来排除这些替代解释。

更深刻的是，细胞不是一个静态的试管。其内部状态，其生理机能，都在不断响应环境而变化。一个在富糖培养基中快速生长的细胞，会将其大部分资源分配给制造新的核糖体。一个在最低培养基中挨饿的细胞，可用的游离核糖体要少得多。这意味着你的RBS的“强度”不是一个绝对的、柏拉图式的值；它是情境依赖的。它的产出取决于核糖体的全局可用性，而这是一种它必须去竞争的资源。

这似乎是一个棘手的问题。如果细胞背景总是在变化，我们如何测量元件的内在属性呢？解决方案是一个极其优雅的实验设计典范：比率测量。你不是构建一个报告基因，而是构建一个带有两个报告基因的构件，并将它们放置在同一个mRNA分子上（一种双顺反子设计）。一个报告基因由你文库中的待测RBS驱动。另一个由一个恒定的、参考RBS驱动。两者都暴露在完全相同的细胞环境中——相同数量的mRNA分子，相同池的游离核糖体。当你测量两个报告基因的荧光并取其比值时，那些平等影响两者的全局变量就简单地被抵消了！游离核糖体浓度的变化、mRNA分子数量的改变——它们都从等式中消失了。剩下的是一个纯粹、稳健的测量值，即你的待测RBS相对于参考RBS的内在、相对强度。这是一个针对深层复杂问题的惊人简单的解决方案，也是一个完美的例证，说明了巧妙的思维如何让我们从生物学光荣的混乱中提炼出工程学优美、有序的原理。

应用与跨学科联系

在窥探了核糖体结合位点（RBS）如何起始翻译的基本机制后，你可能会觉得这是一个极其精巧但或许有些学术化的分子机制。但对科学家和工程师而言，当一个原理超越其原生学科的界限并开始照亮其他领域时，真正的激动才会到来。一个科学思想的真正美妙之处，不仅在于它能解释现状，更在于它有能力创造未来。因此，让我们带着对RBS文库的理解，看看它将引领我们走向何方。我们会发现，这组微小的DNA片段不仅仅是一个元件目录，更是一把万能钥匙，能解锁从工业制造到生命逻辑本身的各种应用。

细胞工厂：代谢工程

想象一条复杂的装配线，它生产一种有价值的药物或生物燃料。生产线上的每个工位都是一个化学反应，由特定的酶催化。作为总工程师，我们的工作是让这条装配线尽可能快地运行，同时避免出现故障。在活细胞中，这就是代谢工程的世界。我们可能会将三种酶—— $E_1$ 、 $E_2$ 和 $E_3$ ——的途径拼接在一起，将一种简单的糖转化为珍贵的产物。

问题在于，细胞的装配线比机械装配线更娇气。假设第一个酶 $E_1$ 工作得太快，产生的中间化合物的速度超过了 $E_2$ 的处理能力。如果这个中间体有毒，它就会积累起来并毒害我们用作工厂的细胞。相反，如果 $E_1$ 太慢，整条生产线就会因缺少原料而停滞。所有酶的表达水平必须完美平衡。

我们如何实现这种平衡？自然界通过亿万年的进化，可能为其自身的目的找到了解决方案。但我们想为我们的目的设定平衡。这时，RBS文库就成了我们必不可少的工具包。由于每种酶的量与其RBS的翻译起始速率成正比，这个文库就像是我们细胞机器的一套齿轮套件。我们拥有一系列RBS——一些弱，一些强，一些中等强度——我们可以为每个酶基因混合搭配使用。例如，为了解决我们的有毒中间体问题，我们可能需要一个中等强度的RBS用于第一个酶 $E_1$ ，但需要一个非常强的RBS用于第二个酶 $E_2$ ，以确保有毒化合物一经产生就被迅速消耗掉。

这里的力量在于组合。仅用少数几个启动子和少数几个RBS，我们就可以产生一个广阔的可能表达水平的图景。我们可以计算预测每种组合的输出，然后只对最有希望的候选者进行实验测试。我们不再是猜测；我们是在进行工程设计。这种重构代谢的方法已经成为生产从胰岛素、青蒿素到可持续塑料和燃料等一切产品的核心。

编排生命逻辑：基因线路

生物学不仅仅是线性的装配线；它是一个由复杂调控网络构成的网。基因以一种复杂的舞蹈方式相互开启和关闭，从而产生模式、让细胞做出决策并储存记忆。合成生物学家的目标不仅是观察这种舞蹈，还要编排新的舞蹈。

以大肠杆菌中著名的lac操纵子为例。它从一条信息中产生三种蛋白质，但其比例是由一种巧妙但僵化的机制——翻译偶联——固定的。如果我们为了自己的目的想要一个不同的比例怎么办？我们可以打破自然界的系统。通过在每个基因前插入我们自己表征过的RBS，我们可以解耦它们的表达，并将它们的相对产量设定为我们想要的任何比例——比如10:1:2，而不是自然界的100:50:20。我们成了作曲家，用我们的RBS“音符”库来谱写全新的分子交响乐。

这个原理使我们能够构建复杂的基因线路。比例至关重要。为了使一个简单的调控开关正常工作，细胞必须产生恰当数量的调控蛋白，以相对于它所控制的酶。但让我们看一个更深刻的例子：一个基因拨动开关。这是一个由两个相互抑制的基因构成的线路。基因X制造一种关闭基因Y的蛋白质，而基因Y制造一种关闭基因X的蛋白质。结果是一个双稳态系统：要么X是“开”而Y是“关”，要么Y是“开”而X是“关”。这是一个存储单元，是储存在细胞状态中的一个比特信息。

这种开关最重要的特性之一是其转换阈值——需要多大的外部信号才能将其从一种状态翻转到另一种状态？在这里，与动力系统物理学的深刻联系就出现了。这个阈值对应于系统方程中的一个“鞍节点分岔”。而决定这个分岔点位置的是什么？是蛋白质的生产速率！通过使用RBS文库来调节基因X和Y的翻译速率，我们可以直接移动转换阈值。我们可以使开关更敏感或不那么敏感，而不改变其基本的锐度或“协同性”。我们正在使用一个简单的分子元件来直接操纵一个复杂的非线性网络所涌现出来的系统级属性。

精度、噪声与控制前沿

到目前为止，我们一直把我们的RBS“旋钮”当作可以设定一个完美稳定蛋白质水平的工具。但细胞世界是充满噪声和随机性的。基因表达是以随机脉冲的方式发生的。有没有可能RBS的作用不仅仅是控制平均表达水平？

确实如此。让我们深入探讨一个更高级的应用：新兴的基于CRISPR的基因调控领域。使用一个“死亡”版本的Cas9（dCas9），我们可以用一个RNA引导它到基因组中的任何基因并将其关闭，这个过程称为CRISPR干扰（CRISPRi）。抑制程度取决于dCas9蛋白的浓度。在这里，RBS文库提供了终极的“调光开关”。我们可以开发一个基于转录、翻译和结合动力学第一原理的数学模型，该模型可以预测任何给定dCas9浓度下的确切抑制水平。然后，RBS文库允许我们精确地调节该浓度，例如，通过从我们的收集中选择正确的RBS强度，实现对目标基因恰好 $90\%$ 的敲低。这是在分子水平上实现的模型预测控制。

故事变得更加丰富。RBS不仅设定了平均蛋白质水平，还影响了其生产的统计特性——即“噪声”。一个强RBS可能会促进大而稀疏的蛋白质合成脉冲，而一个弱RBS则可能导致小而频繁的脉冲，即使它们在长期内产生的平均水平相同。通过将先进的显微镜技术与巧妙的模型相结合，我们可以开始解开这些效应。我们可以使用RBS文库设计实验来提出一些微妙的问题：翻译行为本身是否会干扰基因的开关动力学？这完全有可能，而RBS文库正是我们用来研究这种反馈回路的工具，从而将纳米尺度的翻译过程与微秒级的启动子活动动态联系起来。

宏伟挑战：生命的蓝图

为什么对表征和文库如此执着是如此重要？这关系到合成生物学的宏伟抱负：使生物学成为一门真正的工程学科。在电子学或机械工程等领域，进步依赖于标准化和抽象化。工程师在构建新计算机时不会每次都重新设计晶体管；他们使用一个包含性能可预测的、经过充分表征的元件库。

这就是RBS文库在生物学中的作用。它们是合成生物学抽象层次结构中的一个基础“元件”。我们将这些元件组合起来构建“装置”，如代谢途径或拨动开关，而这些“装置”又被组装成执行复杂任务的“系统”。

这种范式的最终体现是设计和构建一个最小基因组——一个自我复制生物体所需的最小基因集合。要着手这项艰巨的任务，不能简单地随机拼接DNA。设计空间大得惊人。唯一可行的前进道路是根据一个建立在标准化、已表征元件之上的蓝图来工作。通过拥有已知强度的启动子和RBS文库，设计者可以使用模型来分配细胞宝贵的资源，确保每种必需蛋白质都以其所需的水平生产——不多也不少。标准化将一个在序列空间中不可能完成的搜索转变为一个可管理的、离散参数的设计问题。

为了分享这些设计，为了建立一门累积性的科学，让一个实验室可以建立在另一个实验室的工作之上，我们甚至需要一种标准化的语言。像合成生物学开放语言（SBOL）这样的数据标准为描述生物元件提供了形式化的语法，确保当一位科学家谈论“RBS文库”时，它可以被表示为一个无歧义的数字Collection，其中包含不同的ComponentDefinition对象，每个对象都有自己的序列和属性。

从微调化工厂到编排线路逻辑，再到为自下而上设计生命奠定基础，小小的RBS文库有力地证明了一种关于生物学的新思维方式。它是一种工具，也是一个象征——象征着我们有能力超越单纯的观察，走向理性设计，将研究生命是什么的科学转变为工程改造生命可以成为什么的工程学。