try ai
科普
编辑
分享
反馈
  • 可预测的基因线路

可预测的基因线路

SciencePedia玻尔百科
核心要点
  • 合成生物学的核心是通过创建标准化、模块化的“生物元件”,使生物学成为一门工程学科,这些元件可以被可预测地组装起来。
  • 定量测量,例如相对启动子单位(RPU),对于表征元件和超越定性的、试错性的方法至关重要。
  • 有效的基因线路设计需要正交性和强终止子等隔离策略,以防止与宿主细胞的串扰和干扰。
  • 整合计算工具,从生物物理模型到机器学习和形式化方法,对于设计和验证复杂的合成生物系统至关重要。

引言

合成生物学的梦想是将活细胞转变为可编程的机器,从生命这种杂乱而复杂的材料中创造出一门真正的工程学科。这个宏伟的目标取决于一个至关重要的挑战:我们设计和构建行为可预测的基因线路的能力。与电子工程中可靠的电阻器和晶体管不同,我们使用的生物“元件”——基因、启动子和蛋白质——是进化的产物,在细胞的混乱环境中常常表现出不可预测的行为。我们如何才能超越手工作坊式的、试错性的生物学研究,走向一个理性的设计过程,从而能够满怀信心地构建复杂的功能呢?

本文将探讨这个核心问题。第一章 ​​“原理与机制”​​ 将深入探讨那些让我们能够像工程师一样对待生物学的基础概念。我们将探索标准化和模块化的原则,寻求基因表达的定量标尺,设计像拨动开关这样的经典线路,以及将我们的设计与细胞内部“噪音”隔离开来的关键策略。第二章 ​​“应用与跨学科联系”​​ 将展示这些原理如何付诸实践。我们将审视一种“基于元件”的工程学科的发展,与计算机科学为计算设计和安全验证而建立的强大联盟,以及这一愿景在能够感知环境并执行预设程序的智能生物系统形式下的最终实现。通过探索这些主题,我们将揭示用生命本身进行构建的设计规则,从生物乐高的梦想走向智能工程化生命系统的现实。

原理与机制

想象你有一盒乐高积木。你有红色的 2x4 积木,蓝色的 1x2 积木,还有黄色的斜屋顶积木。你确切地知道它们如何拼在一起。你有一本说明书。你可以充满信心地将它们扣合在一起,搭建一座房子、一辆汽车或一艘宇宙飞船,而且你知道它会很稳定,并且看起来和盒子上的图片一模一样。几十年来,工程师们对电子元件——电阻器、电容器、晶体管——也做着同样的事情。他们有元件目录,其中包含精确定义的属性,使他们能够在绘图板上设计和建造一台计算机,并高度自信它在通电时能够正常工作。

现在,如果你的乐高积木有点……活了呢?如果红色积木有时会改变色泽,蓝色积木偶尔会相互排斥,而连接处又有点摇晃,会怎么样?这正是合成生物学家面临的美丽而又令人沮丧的挑战。目标是同一个工程梦想:用一套标准元件构建复杂的、可预测的系统。但这些元件本身却是生命的柔软、进化而来且极其复杂的组成部分。要将生物学转变为一门真正的工程学科,我们必须首先确立那些能让我们用这些活的积木进行构建的原则。

生命如乐高:一位生物工程师的梦想

催生合成生物学的根本性思想转变是,不再仅仅将细胞视为一个深不可测、进化而来的黑箱,而是将其看作一台可编程的机器。这个想法由计算机科学家 Tom Knight 等先驱者大力倡导,其主旨不仅在于精神上的类比,更在于实践中与电子工程的看齐。如果电气工程师有一个集成电路库,那么生物工程师就应该有一个标准化的生物元件注册库。

这些“元件”是具有特定功能的DNA片段。可以把它们看作我们的生物乐高积木:

  • ​​启动子​​ 是基因的“起始”信号。其“强度”决定了基因被开启的频率。
  • ​​编码序列(基因)​​ 是特定蛋白质的蓝图,该蛋白质充当微型机器或结构组件。
  • ​​终止子​​ 是一个“停止”信号,告诉细胞机制结束转录。

这里的核心工程原理是​​标准化​​和​​模块化​​。标准化意味着以一种通用的方式定义这些元件,以便一个实验室的启动子可以被另一个实验室理解和使用。模块化意味着这些元件应该像乐高积木一样:你应该能够将一个启动子扣在一个基因上,再在末端加上一个终止子,并让由此产生的“装置”以可预测的方式运作。这一愿景使我们能够从仅仅研究现有生命,转向主动设计新的生物功能。

基因的标尺:对测量的求索

这种模块化元件的梦想立即遇到了一个非常实际的问题。如果我给你一个电阻器,上面会写着一个数字:100欧姆。这个值是绝对的。但是你如何测量一个启动子的“强度”呢?一种常见的方法是将启动子连接到一个能产生绿色荧光蛋白(GFP)的基因上,然后测量细胞的发光亮度。

在该领域的早期,实验室会以“任意荧光单位”来报告这种亮度。问题在于,这个数值依赖于一切因素:测量设备的确切型号、其设置、室温、细胞的生长培养基。一个实验室称之为“1000单位强度”的启动子,在另一个实验室可能被测量为“50单位”。这种标准单位的缺乏使得可预测的工程几乎不可能实现。这就像试图用各种不同的卷尺建造一座房子。你无法理性地组合元件;你被迫陷入无休止的试错循环中。

解决方案是开发一把标准化的“标尺”。由此产生的最重要的概念之一是​​相对启动子单位(Relative Promoter Unit,RPU)​​。这个想法简单但强大:始终将你感兴趣的启动子的活性与在完全相同条件下测量的单个标准参考启动子的活性进行比较。通过计算这个比率,所有任意的、设备特定的因素都被抵消了。活性为 1.01.01.0 RPU 意味着你的启动子与标准启动子强度完全相同。值为 0.50.50.5 RPU 意味着它强度只有一半。

突然之间,启动子的强度变成了可移植、可比较的数字。这种定量表征是工程方法的基石。它允许设计者浏览启动子目录,并选择一个强度为(比如说)0.10.10.1 RPU 用于低表达,或 10.010.010.0 RPU 用于高表达的启动子,并对结果抱有一定信心。它实现了工程学标志性的可预测组合。

用生物学进行构建:从简单元件到智能装置

有了一个经过良好测量的元件库,我们就可以攀登复杂性的阶梯。我们可以从仅仅让细胞发光,转向构建能执行逻辑和存储信息的基因“装置”。其中一个最具标志性的早期例子是 Gardner 和 Collins 在2000年构建的​​基因拨动开关​​。

想象一下你墙上的一个简单电灯开关。它有两个稳定状态:开和关。当你把它拨到开,它就保持在开。当你把它拨到关,它就保持在关。它具有记忆功能。在2000年之前,在细胞中创造这种简单的功能是一项重大挑战。早期的合成线路常常是“泄漏的”或“单稳态的”——它们无法可靠地“锁定”在两种状态之一并保持住。它们更像是带有弱弹簧的调光旋钮,在你松手后总会把它们拉回到“关闭”位置。

拨动开关通过一个优雅的设计解决了这个问题,该设计使用了两个相互抑制的基因。我们称它们为抑制子A和抑制子B。

  • 基因A产生抑制子A。
  • 抑制子A关闭产生抑制子B的基因。
  • 基因B产生抑制子B。
  • 抑制子B关闭产生抑制子A的基因。

这种相互抑制创造了一个​​双稳态系统​​。如果细胞正在大量产生抑制子A,那么B的基因就会被强力关闭。由于没有抑制子B产生,A的基因就可以自由地保持活性。细胞稳定地“卡”在“A-开 / B-关”的状态。反之,如果有很多抑制子B,A的基因被沉默,细胞则锁定在“A-关 / B-开”的状态。该线路可以通过短暂的化学信号从一个状态“翻转”到另一个状态,并且在信号消失后很长时间内仍将保持其新状态。这是一个真正的生物记忆位。这是一项巨大的成功,证明了我们可以用简单、易于理解的元件构建具有复杂动态行为的装置。

别和陌生人说话:隔离的艺术

在纸上设计一个能工作的线路是一回事。让它在活细胞这个混乱、拥挤且高度调控的环境中工作则完全是另一回事。你精心设计的线路就像一台先进的新机器,被扔进一个有着十亿年历史的繁忙工厂的中央。那个工厂里的一切都是相互连接的。能量和原材料等资源是共享的。工厂的管理者(细胞自身的调控网络)在不断地巡视车间。这就导致了一个关键问题:​​串扰​​。你的线路可能会干扰细胞,或者细胞可能会干扰你的线路。

要成为一名优秀的工程师,你必须掌握​​隔离​​的艺术。一个强有力的原则是​​正交性​​。这意味着使用的组件对宿主细胞是“不可见的”,反之亦然。T7转录系统就是一个绝佳的例子。像*大肠杆菌这样的细菌中的大多数启动子都被细胞自身的RNA聚合酶识别。但T7启动子不同;它来自一种病毒,完全被大肠杆菌*的聚合酶忽略。它只被其自己独特的T7 RNA聚合酶识别。

通过设计一个线路,其中输入信号使细胞产生T7聚合酶,然后该聚合酶再从T7启动子开启我们感兴趣的基因,我们就创建了一个私有的通信通道。线路的最终输出与细胞自身绝大多数的调控“噪音”隔离开来。这导致了一个更干净、更可预测的“开/关”响应。

隔离也可以是更直接的,比如建造墙壁。想象一下,你在一段DNA上并排放置了两个基因装置。装置1是一个强效的、始终开启的蓝光生产者。装置2是一个可诱导的黄光生产者,它只应在添加特定化学物质时才开启。你期望细胞是蓝色的,并且只有在添加化学物质时才变成绿色(蓝色+黄色)。但结果你发现,即使没有诱导剂,它们也是青色的!出现了不希望的黄色产生。发生了什么?装置1末端的“停止”信号(终止子)有泄漏。转录蓝色基因的聚合酶直接冲过了它,并继续转录黄色基因。这被称为​​转录通读​​,是模块化失败的典型案例。解决方案是建造一堵更好的墙:一个强大的、​​双终止子​​元件,它充当基因防火墙,确保一个模块的活动不会渗入下一个模块。

活体机器的美丽瑕疵

到目前为止,我们与电子学和乐高积木的类比对我们很有帮助。它为我们提供了标准化、模块化和隔离的指导原则。但在这里,我们必须面对一个更深层次的真相。生命的组件不是、也永远不会是完美的。它们是进化的产物,而不是工厂流水线的产品。启动子有点泄漏。反应断断续续地发生。而这并非类比的失败,而是引导我们进入更深层次理解的邀请。

首先,让我们考虑​​泄漏性​​。一个抑制子可能与启动子结合,但它会时不时地晃动一下暂时脱落,一个聚合酶可能会趁机溜进去制造一个单转录本。“关闭”状态从来不是真正的零。在很长一段时间里,这只是一个烦恼。但我们可以做得更好。我们可以用一个明确包含这一现实的数学表达式来描述被抑制基因的输出,而不是把它看作一个完美的开关。稳态蛋白质浓度 PssP_{ss}Pss​ 可以建模为: Pss=1γ(αleak+αmax−αleak1+([R]K)n)P_{ss} = \frac{1}{\gamma}\left(\alpha_{leak} + \frac{\alpha_{max} - \alpha_{leak}}{1 + \left(\frac{[R]}{K}\right)^{n}}\right)Pss​=γ1​(αleak​+1+(K[R]​)nαmax​−αleak​​) 不必被这些符号吓倒。只需看一下 αleak\alpha_{leak}αleak​ 这一项。它是一个“泄漏率”——即使抑制子浓度 [R][R][R] 非常高时也会发生的基础生产水平。通过将这一项包含在我们的模型中,我们的预测变得更加准确。我们不是在用完美的开关进行设计,而是在用可预测的、不完美的开关进行设计。

这引导我们走向一个更基本的概念。让我们重新审视“DNA即软件,细胞即硬件”的类比。它表明,如果你将相同的软件(带有GFP基因的质粒)放入相同的硬件(*大肠杆菌*的克隆群体)中,并给它们所有相同的输入(一种诱导剂化学物质),你应该得到相同的输出(所有细胞发光亮度相同)。但当你做这个实验时,你看到的并非如此。你看到了一个巨大的亮度范围:一些细胞耀眼夺目,许多细胞亮度适中,而一些则顽固地昏暗。

这就是​​生物噪声​​,它打破了简单的硬件/软件类比。细胞的“硬件”不是一个确定性的处理器。它是一台随机机器。基因表达是一场数字和几率的游戏。蛋白质的产生不是稳定的流动,而是离散、随机事件的结果:一个聚合酶恰好结合,一个mRNA在被降解前被随机翻译了若干次,分子在拥挤的细胞质中推挤和碰撞。这是​​内在噪声​​——生化反应本身固有的随机性。

除此之外,每个“相同”的细胞并非真正相同。一个可能核糖体稍多一些,另一个可能稍大一点,或者能量分子的浓度更高。这种细胞间在细胞环境中的差异被称为​​外在噪声​​。这两种噪声源的结合意味着,一个相同的基因程序会导致一个结果的分布,而不是一个单一的结果。细胞不是瑞士手表;它是一台概率机器。

这远非令人失望,这一认识是通往合成生物学下一个前沿领域的关键。目标不是消除这种随机性——这可能是不可能的——而是去理解它,去建模它,并最终用它来进行工程设计。我们正在学习设计对噪声具有鲁棒性的线路,甚至是利用噪声实现有用功能的线路。我们正在超越生物乐高的简单梦想,学习用生命这种美丽、混乱且本质上随机的材料进行构建的真正设计规则。

应用与跨学科联系

在我们完成了对基因线路基本原理和机制的探索之后,你可能会想:“这一切都非常巧妙,但它到底为了什么?我们实际上能用它做什么?”这是一个极好且至关重要的问题。答案是,我们正站在一种新工程学的门槛上——一种基底不是硅,而是生命本身的工程学。我们将要探索的应用不仅仅是巧妙的技巧;它们代表着一种深刻的、跨学科的努力,旨在使生物学成为一种可预测、可设计和可编程的媒介。

想象一下电子世界。一位工程师可以坐下来,用一种高级语言描述一个复杂的功能——比如,一个处理器的逻辑——然后一个叫做编译器的软件会将这个抽象的想法转化为芯片上数百万晶体管的物理蓝图。电子设计自动化(EDA)的这一奇迹之所以可能,是因为其基本组件——晶体管和逻辑门——是标准化的、可预测的,并遵循着易于理解的规则。合成生物学的梦想是实现类似的目标:编写一个关于期望细胞行为的高级描述——“如果感知到分子A但没有感知到分子B,就产生药物C”——然后让一个“基因编译器”自动设计出实现它的DNA序列。但在这里,我们面临一个电子学同行所没有的深刻挑战。生物元件,不同于它们的硅制 counterparts,通常是混乱的、依赖于上下文的,并且容易发生令人惊讶的相互作用。合成生物学应用的故事,就是我们探索驯服这种美丽复杂性的故事。

为生命打造工程师的工具箱

在建造摩天大楼之前,我们必须首先学会如何制造可靠的砖块和横梁。合成生物学的第一个也是最基本的应用,就是为生物学创建一个“基于元件”的工程学科。其目标是创建一个标准化的、经过良好表征的组件库,这些组件可以像乐高积木一样以模块化的方式拼接在一起。

考虑一个简单的任务:让一个细菌产生信号分子来与邻居交流。在过去,这是一种手工艺。但用工程思维来看,我们将其视为用标准元件组装一个简单的转录单元:一个开启它的开关,一个核糖体机器结合的地方,我们想要蛋白质的编码,以及一个停止信号。一个实验室的学生现在可以通过选择一个组成型“始终开启”的启动子(P_const)、一个核糖体结合位点(RBS)、信号酶的编码序列(luxI)和一个终止子(T),来理性地设计一个“发送者”细胞。按此顺序组装,这些元件能够可靠地创建一个持续广播化学信息的细胞,为工程化微生物群落奠定了基础。

但是,大自然很少给我们提供完美干净和模块化的元件。一个天然的遗传系统,比如一个细菌操纵子,通常是进化优化的奇迹,但它也纠缠在一张复杂且往往知之甚少的原生调控网络中。因此,一个关键的工程策略是“重构”。我们像谨慎的机械师一样,拿来一个美丽的自然机器——比如,一个代谢途径的基因簇——然后用我们自己的一套标准的、经过良好表征的启动子和控制旋钮来替换它原有的、深奥的调控线路。核心功能基因得以保留,但它们现在与原生上下文解耦,使其在我们工程化系统中的行为变得更加可预测和可调控。

这引出了另一个至关重要的概念:​​正交性​​。为了构建鲁棒的线路,我们的合成组件绝不能干扰宿主细胞自身复杂的机器,反之亦然。我们需要创建细胞原生过程会忽略的私有通信通道。这是一个巨大的挑战,但可以通过巧妙的蛋白质工程来应对。想象一个天然的转录因子,当它与细胞内的一个天然分子结合时,会激活一个基因。我们可以使用定向进化来突变这个蛋白质,直到它的偏好被翻转。这个新的、经过重新工程化的蛋白质现在可能完全忽略天然分子,但对我们从外部引入的合成、非天然分子变得高度敏感。通过测量结合亲和力(用解离常数 KdK_dKd​ 量化),我们可以筛选出那些与我们的合成信号结合非常紧密(低 KdK_dKd​)而几乎不识别天然信号(高 KdK_dKd​)的突变体。这就创造了一个“正交”的控制旋钮,一个私有的开关,让我们的线路能在自己的小世界里运行,不受细胞内部“噪音”的干扰。

从元件到程序:细胞中的逻辑与记忆

有了可靠的元件工具箱,我们就可以开始构建不仅存在,而且能计算的装置。这种方法的第一个伟大胜利之一是创造了一个基因“拨动开关”。通过让两个基因各自产生一个蛋白质来抑制对方,系统可以稳定地存在于两种状态之一:状态A开启且状态B关闭,或者反之亦然。这是一个生物触发器,一个真正的记忆元件。一个化学脉冲将它翻转到“开”状态,它就保持在那里;另一个化学脉冲将它翻转到“关”状态,它也保持在那里。这证明了我们可以构建具有记忆功能的线路,这是任何复杂计算的基本要求。

然而,任何与生物学打过交道的人都知道,它不是一个干净的数字世界。基因表达是一个固有的、充满噪声的随机过程。即使在一个拥有完全相同基因线路的克隆细胞群体中,一些细胞会产生大量蛋白质,而另一些则产生得很少。这种“噪声”对工程化类似数字的逻辑是一个巨大的挑战。如果你正在构建一个只应在信号超过某个阈值时才开启的开关,噪声可能是灾难性的。在一个高噪声系统中,即使平均信号水平是“关闭”,也会有相当数量的细胞仅因随机波动而超过阈值并“错误激活”。要获得像数字开关一样可靠运行的线路,我们需要具有低表达噪声的元件——即输出在均值周围呈紧密分布。量化这种噪声,例如用变异系数(σμ\frac{\sigma}{\mu}μσ​),已成为表征和选择用于我们线路的最佳“数字级”元件的关键部分。

与数字世界的联盟:为生物学计算和在生物学中计算

驯服生物学的复杂性,这项任务太艰巨,不能仅靠在实验室里试错来完成。这催生了与计算机科学和数据科学的数字世界的强大联盟。两个关键的前沿领域已经出现:利用计算为生物学服务,以及将形式逻辑嵌入到生物学中。

首先是生物计算机辅助设计(CAD)的兴起。我们不再需要构建和测试每一种可能的设计,而是可以使用计算模型来预测线路的行为。早期的成功来自于生物物理模型,比如“RBS计算器”。这些工具可以接收一个DNA序列,并基于物理原理,如mRNA的折叠能(ΔG\Delta GΔG),来预测蛋白质的生成速率。mRNA中紧邻基因起始处的一个强发夹环结构可以物理上阻挡核糖体,从而使表达量骤降。通过计算这一点,我们可以预测这种不希望的结构稳定性与最终蛋白质产量之间的强负相关性,从而使我们能够设计出避免这些陷阱的序列。最近,这已扩展到机器学习领域。当元件之间的相互作用变得过于复杂,以至于简单的物理模型无法处理时,我们可以用大量的实验结果数据集来训练算法。例如,一个逻辑回归模型可以通过分析其GC含量和预测的连接区结构等特征,来学习预测启动子和RBS之间“功能性干扰”的概率。这种数据驱动的方法正变得不可或缺,用于设计能一次成功的复杂线路。

更为深刻的是将计算机科学中的形式化方法应用于保证我们创造物的安全性。对于任何打算用于现实世界,特别是医学或环境中的线路,我们必须能够证明它不会进入危险状态。在这里,我们可以借用一种称为时序逻辑的工具,例如计算树逻辑(CTL)。我们可以为我们的基因线路可能进入的所有状态建立一个数学模型,然后使用CTL公式来询问其随时间变化行为的精确问题。对于一个可能携带毒素基因的线路,我们可以编写一个安全规范:“对于​​A​​ll(所有)可能的未来,​​G​​lobally(全局地)在所有时间点,毒素基因都​​NOT​​(不)被表达,这个命题是否为真?”这被写为 AG(NOT p),其中 p 是命题“毒素被表达”。然后,模型检测算法可以从数学上证明这个属性对我们的设计是否成立。这为生物学带来了前所未有的严谨性和安全工程水平。

愿景的实现:智能生物系统

所有这些工作——构建标准元件、驯服噪声、创建计算设计工具——最终的回报是什么?是能够创造出真正“智能”的生物系统,它们可以感知环境并执行复杂的、程序化的行动。

也许最鼓舞人心的例子是“智能疗法”。想象一下,工程改造一种无害的益生菌,病人可以摄入。这种细菌含有一个带有传感器模块和执行器模块的合成线路。传感器被设计用来检测一种特定的肠道炎症分子生物标志物。执行器是一个编码强效抗炎药物的基因。线路的逻辑很简单:​​如果​​传感器检测到生物标志物,​​那么​​激活执行器,在炎症部位就地生产和分泌药物。这不仅仅是一种药物;它是一个自主的诊断和治疗剂。它代表了合成生物学方法的顶峰:理性设计一个新颖的、多组件的系统,它具有可预测的、用户定义的、感知-响应行为,并执行自然界中没有的功能。

从调整单个启动子到构建细胞医生,合成生物学的旅程是一场雄心不断增长的征途。这是生物学、工程学和计算机科学之间的一场跨学科之舞。通过寻求理解生命的逻辑,我们正在学习用它的语言书写新的句子,开启一个我们才刚刚开始梦想的未来,一个充满智能药物、可持续生物制造和活性材料的未来。其内在的美不仅在于我们所发现的生命的复杂性,还在于我们现在能够用它来构建的优雅而强大的逻辑。