系统生物学标记语言

玻尔百科

定义

系统生物学标记语言是一种标准化的机器可读语言，用于在计算生物学中表示生物模型，并定义物种、隔室、反应及其数学规则。该语言通过区分组件的易读名称与唯一机器 ID 来消除歧义，并将模型结构与实验模拟方案分离以确保结果的可复现性。系统生物学标记语言与 SED-ML 和 SBOL 等标准共同构成的生态系统，支持合成生物学中完整的“设计-构建-测试-学习”循环。

核心要点

SBML提供了一种标准化的、机器可读的语言来表示生物模型，定义了诸如物种、区室、反应以及控制其动态的数学规则等组件。
该语言区分了组件的人类可读名称和其唯一的机器可读ID，这可以防止歧义，并允许精确地组合不同模型。
SBML将模型的结构（它是什么）与实验方案（如何模拟它）分开，当与SED-ML结合使用时，可确保计算实验完全可复现。
SBML在一个更大的标准生态系统中运作，与SBOL（用于结构性DNA设计）和SED--ML（用于模拟设置）相连接，以支持合成生物学中完整的设计-构建-测试-学习循环。

引言

在现代生物学中，精确清晰地描述复杂而动态的生命过程是一项重大挑战。如果没有一种通用语言，共享、复现和构建生物系统的计算模型将几乎不可能，从而阻碍科学进步。系统生物学标记语言（Systems Biology Markup Language, SBML）正是为解决此问题而开发的，它为表示这些复杂的生物“钟表装置”提供了一种通用的、机器可读的标准。本文旨在引导读者理解SBML的强大功能与精妙之处。

首先，我们将探索该语言的核心“原理与机制”。本节将解构一个SBML模型是如何构建的，从定义分子角色（species）及其位置（compartments），到编写它们的相互作用（reactions），再到用数学kineticLaw设定生命的节奏。随后，本文将把焦点扩展到“应用与跨学科联系”，揭示SBML如何在一个更大的数字生态系统中发挥作用。我们将审视它与其他标准（如合成生物学开放语言-SBOL和模拟实验描述标记语言-SED-ML）的关键关系，以实现可复现的科学并推动生物学的工程化。

{'model': {'model': {'sbml': {'model': {'sbml': {'reaction': {'listOfReactants': {'listOfProducts': {'kineticLaw': {'notes': {'annotation': '元素。这是“图书管理员的目录卡”。在这里，你可以添加结构化的、机器可读的[元数据](/sciencepedia/feynman/keyword/metadata)，将你的模型组件与外部世界联系起来。你可以正式声明你的species "s1" *就是*由ChEBI标识符15422（ATP）所代表的分子，从而在全球生物知识网络中创建一个明确的链接。注释用于讲故事，而注解用于数据集成。\n\n也许SBML最美妙的方面是其语言本身被设计为可以演进的。早期版本，如Level 2，是单一整体式的——一个巨大的规范涵盖所有内容。但生物学是广阔多样的。如果核心语言是围绕充分混合的[化学反应](/sciencepedia/feynman/keyword/chemical_reactions)构建的，你如何谈论细胞的空间几何，或[基因网络](/sciencepedia/feynman/keyword/gene_networks)的开/关逻辑？\n\n在SBML Level 3中引入的解决方案，是一个架构上的天才之举：[模块化](/sciencepedia/feynman/keyword/modularity)。Level 3提供了一个精简、干净的**Core**（核心）规范，包含我们已经讨论过的基本要素。然后，对于特殊需求，可以添加**Packages**（包）。有一个用于描述几何和[扩散](/sciencepedia/feynman/keyword/diffusion)的“空间”（Spatial）包，一个用于逻辑网络的“定性模型”（Qualitative Models）包，一个用于[稳态分析](/sciencepedia/feynman/keyword/steady_state_analysis)的“流[平衡](/sciencepedia/feynman/keyword/equilibrium)约束”（Flux Balance Constraints）包等等。这意味着一个只理解SBML Level 2的旧软件工具将无法读取使用特殊包的现代Level 3模型，这解释了为什么兼容性可能是一个问题。但好处是巨大的：语言可以在不使其核心变得臃肿和笨拙的情况下，成长和适应新的科学前沿。它可以学习。\n\n从简单的角色声明到普适法则的强制执行，再到其自身的演进能力，SBML提供了一个完整、逻辑且精妙的框架。它是我们用来书写活细胞诗篇的语言，将其短暂的舞蹈转化为可以被分享、模拟和理解的有形艺术品。', 'applications': "## 应用与跨学科联系\n\n想象一下，你发现了一套用乐高积木搭建一辆精密模型车的绝佳说明书。你完美地按照说明操作，造出了一辆漂亮的小车。但是，说明书会告诉你这辆车能跑多快吗？它会告诉你它在急转弯时的操控性如何，或者在车轴弯曲前能承载多少重量吗？当然不会。说明书描述的是汽车的*结构*。要了解它的*行为*，你需要一种完全不同的描述——也许是一套来自物理学的方程，描述它的运动、[质心](/sciencepedia/feynman/keyword/centroid)和车轮的[摩擦力](/sciencepedia/feynman/keyword/friction_force)。\n\n这种“知道它*是*什么”和预测它“*会*做什么”之间的根本区别，正是现代生物学的核心。当我们从简单地描述生物系统转向主动地工程化它们时，我们既需要结构蓝图，也需要动态模拟。开发一种能够捕捉这两个方面的通用语言是一场悄无声息的革命，而[系统生物学标记语言](/sciencepedia/feynman/keyword/systems_biology_markup_language)（SBML）正处于其核心。但只有当我们看到它如何与其他标准和学科联系，构建一个完整的[生物工程](/sciencepedia/feynman/keyword/bioengineering)数字[生态系统](/sciencepedia/feynman/keyword/ecosystems)时，它的真正力量才会显现出来。\n\n### 蓝图与引擎：两种语言的故事\n\n乐高说明书类似于**[合成生物学开放语言](/sciencepedia/feynman/keyword/synthetic_biology_open_language)（Synthetic Biology Open Language, SBOL）**。SBOL是工程化生物系统的建筑师蓝图。一份SBOL文档旨在回答“这个[基因电路](/sciencepedia/feynman/keyword/synthetic_circuits)由什么构成？”这个问题。它为物理DNA构建体提供了精确的、层次化的描述：使用了哪些部件（[启动子](/sciencepedia/feynman/keyword/promoters)、[编码序列](/sciencepedia/feynman/keyword/coding_sequence)、终止子）、它们精确的DNA序列，以及它们如何[排列](/sciencepedia/feynman/keyword/permutations)形成器件和系统。这是一种为设计、制造和跟踪实验室物理库存而优化的语言。\n\n但是一旦[电路](/sciencepedia/feynman/keyword/electrical_networks)建成，它会*做*什么呢？为此，我们需要工程师的语言，即**[系统生物学标记语言](/sciencepedia/feynman/keyword/systems_biology_markup_language)（Systems Biology Markup Language, SBML）**。如果说SBOL是蓝图，那么SBML就是引擎的动态模型。SBML主要不关心DNA的物理序列；它关心的是相互作用的组分——如[蛋白质](/sciencepedia/feynman/keyword/proteins)和[信使RNA](/sciencepedia/feynman/keyword/messenger_rna)等“species”——以及控制它们数量或浓度随时间变化的反应。一个SBML模型从根本上说是对系统行为的数学描述，通常编码为一组[微分方程](/sciencepedia/feynman/keyword/differential_equations)，使我们能够提出预测性问题：“如果在$t=10$分钟时加入一种[诱导](/sciencepedia/feynman/keyword/induction)剂化学物质，我们的[荧光蛋白](/sciencepedia/feynman/keyword/fluorescent_proteins)浓度会发生什么变化？”\n\nSBOL（结构）和SBML（动态）之间的这种[分工](/sciencepedia/feynman/keyword/division_of_labor)，是形式与功能相结合的优美典范。它反映了[合成生物学](/sciencepedia/feynman/keyword/synthetic_biology)（专注于“构建”新的生物形式）和[系统生物学](/sciencepedia/feynman/keyword/systems_biology)（旨在理解最终系统作为一个整体的功能）之间深厚的学科联系。\n\n### 从蓝图到模拟：翻译的艺术\n\n这个[生态系统](/sciencepedia/feynman/keyword/ecosystems)最强大的应用之一，是能够从[结构设计](/sciencepedia/feynman/keyword/structural_design)（SBOL）自动生成行为模型（SBML）的能力。想象一下，你有一个基因器件的SBOL设计。一个复杂的软件工具可以把这个设计“编译”成一个初步的SBML模型。它会读取SBOL文件，并为DNA、它产生的[信使RNA](/sciencepedia/feynman/keyword/messenger_rna)以及最终的[蛋白质](/sciencepedia/feynman/keyword/proteins)创建SBML species。\n\n然而，这种翻译需要一些智能的建模选择。例如，[编码电路](/sciencepedia/feynman/keyword/encoding_circuits)的DNA通常是稳定的；当它被用作[转录](/sciencepedia/feynman/keyword/transcription)模板时，其数量不会减少。因此，SBML模型必须将DNA species表示为[转录](/sciencepedia/feynman/keyword/transcription)反应中的非消耗参与者，可以通过将其指定为modifier，或设置一个特殊标志（boundaryCondition）为true来实现。相比之下，RNA和[蛋白质](/sciencepedia/feynman/keyword/proteins)在不断地产生和降解，因此它们的数量必须建模为动态变量。\n\n然而，这种翻译必然是一种抽象。当我们从SBOL蓝图中丰富的物理细节转向SBML模型的功能性抽象时，一些信息被有意地舍弃了。SBML模型在其核心形式中，并不知道确切的DNA序列、其所在的[质粒](/sciencepedia/feynman/keyword/plasmids)的环状拓扑结构，或者实验室组装过程中留下的小“疤痕”序列。它也可能丢失“来源”信息——谁设计的[电路](/sciencepedia/feynman/keyword/electrical_networks)、是哪个版本，以及其部件来自何处。这不是语言的失败，而是创建专注的数学模型的本质。正如我们将看到的，该系统的美妙之处在于它能够在不使模型本身变得混乱的情况下，保持这些信息的链接。\n\n### 确保我们步调一致：对[可复现性](/sciencepedia/feynman/keyword/reproducibility)的追求\n\n让我们来看一个[计算科学](/sciencepedia/feynman/keyword/computational_science)中常见的悲剧。一位研究人员发表了一篇激动人心的论文，其中一张图表显示[蛋白质浓度](/sciencepedia/feynman/keyword/protein_concentration)随时间优美地[振荡](/sciencepedia/feynman/keyword/oscillation)。他慷慨地分享了他的SBML模型文件。一位热切的学生Alex下载了模型，将其加载到他的模拟软件中，点击“运行”，然后……得到了一条无聊的平线。哪里出错了？\n\n问题在于SBML模型只是引擎；Alex没有如何运行它的说明手册。最初的科学家是模拟了100秒还是24小时？他们使用的是为平滑、[确定性系统](/sciencepedia/feynman/keyword/deterministic_system)设计的数值[算法](/sciencepedia/feynman/keyword/algorithm)（ODE求解器），还是为嘈杂、随机的单细胞事件设计的[算法](/sciencepedia/feynman/keyword/algorithm)（随机求解器）？这些选择不属于模型本身，却对结果产生巨大影响。\n\n这正是**[模拟实验描述标记语言](/sciencepedia/feynman/keyword/sed_ml)（Simulation Experiment Description Markup Language, [SED-ML](/sciencepedia/feynman/keyword/sed_ml)）**提供绝妙解决方案的地方。[SED-ML](/sciencepedia/feynman/keyword/sed_ml)是伴随模型的“食谱”。它是一个独立的、机器可读的文件，指定了确切的模拟程序：“使用这个SBML模型（model.xml），从$t=0$到$t=1000$秒进行时程模拟，使用KiSAO[本体论](/sciencepedia/feynman/keyword/ontologies)术语KISAO:0000019（即CVODE求解器）标识的特定数值[算法](/sciencepedia/feynman/keyword/algorithm)，并每隔10秒记录[蛋白质](/sciencepedia/feynman/keyword/proteins)‘X’的浓度”。有了SBML文件和[SED-ML](/sciencepedia/feynman/keyword/sed_ml)文件，Alex现在可以完美地复现最初发表的图表，无论他的软件或其默认设置如何。这种*模型*与*实验*[分离](/sciencepedia/feynman/keyword/fractionation)的优雅设计，是现代[可复现科学](/sciencepedia/feynman/keyword/reproducible_science)的基石。\n\n### 数字实验室：整合一切\n\n我们现在有了蓝图（SBOL）、引擎（SBML）和食谱（[SED-ML](/sciencepedia/feynman/keyword/sed_ml)）。我们如何打包和分享这个完整的数字实验，以确保没有任何东西丢失？答案是把所有东西都放进一个单一的、自足的“集装箱”中，即**计算建模生物学网络（COmputational Modeling in BIology NEtwork, COMBINE）存档**。这个存档是一个简单的ZIP文件，带有一个特殊的清单，列出其所有内容并描述它们之间的关系。清单上写着：“这是SBOL设计，这是与之对应的SBML模型，这是要对该模型运行的[SED-ML](/sciencepedia/feynman/keyword/sed_ml)实验，还有一份你应该用来比较结果的实验室数据[电子](/sciencepedia/feynman/keyword/electrons)表格。”\n\n这个完整、自足的包是革命性的。它为整个**设计-构建-测试-学习（Design-Build-Test-Learn, DBTL）**循环提供了数字基础，这个迭代过程驱动着现代[合成生物学](/sciencepedia/feynman/keyword/synthetic_biology)。一个团队可以*设计*一个SBOL[电路](/sciencepedia/feynman/keyword/electrical_networks)，在实验室*构建*物理DNA，*测试*其行为并将这种理解捕捉到一个SBML模型和[SED-ML](/sciencepedia/feynman/keyword/sed_ml)协议中，然后从模拟与实验的差异中*学习*，为下一次设计迭代提供信息。随着整个工作流程被捕捉在这种可互操作、可复现和可重用的格式中，生物学正在转变为一门真正的工程学科。\n\n### 生命图书馆：策展与组合\n\n这种共享语言的力量甚至延伸得更远，使科学家能够从现有知识片段中组合出新知识。想象两个独立工作的研究小组。一个小组创建了[糖酵解途径](/sciencepedia/feynman/keyword/glycolytic_pathway)的详细SBML模型，而另一个小组则模拟了[磷酸戊糖途径](/sciencepedia/feynman/keyword/pentose_phosphate_pathway)。一个关键的代谢物，葡萄糖-6-磷酸（G6P），对两者都至关重要。他们如何[合并](/sciencepedia/feynman/keyword/coalescence)他们的模型来研究这两条关键代谢大动脉之间的相互作用？如果他们都只是用文本“G6P”作为物种名称，计算机将无法知道这是否指同一个生物实体。但由于SBML文件中的每个元素都有一个唯一的、机器可读的标识符（其id），建模工具可以被明确指示：“id='g6p_from_model_A'的species与id='g6p_from_model_B'的species是完全相同的实体。[合并](/sciencepedia/feynman/keyword/coalescence)它们。”这使得从不同来源精确无误地组合知识成为可能，避免了仅依赖模糊名称所导致的混乱。\n\n同样明确身份的原则帮助我们建立一个巨大、可搜索的“生命图书馆”。随着公共模型的数量增长到数以万计，找到合适的模型成为一个主要挑战。如果你在数据库中搜索“glucose”，是否应该错过一个作者碰巧称之为“dextrose”的完美模型？为了解决这个问题，模型策展人使用了另一层注解。在不改变模型核心数学的情况下，他们可以添加语义标签，将模型的species链接到葡萄糖的权威数据库条目。他们还可以使用标准词汇表，如简单知识组织系统（Simple Knowledge Organization System, SKOS），添加一个同义词列表，如“dextrose”和“D-glucose”。这使得模型可以通过其所有常用名称被发现，极大地提高了可查找性，而没有任何改变模拟结果的风险。这相当于为世界上的[生物模型](/sciencepedia/feynman/keyword/biological_models)收藏创建了一个内容丰富、[交叉](/sciencepedia/feynman/keyword/chiasmata)引用的卡片目录。\n\n因此，我们看到的是比单纯的文件格式远为深刻的东西。它是一个经过深思熟虑构建的语言[生态系统](/sciencepedia/feynman/keyword/ecosystems)，每种语言都有其独特但互补的用途。SBML与其合作伙伴SBOL和[SED-ML](/sciencepedia/feynman/keyword/sed_ml)一起，提供了一种共享的语法，让全球科学家社区能够以先前无法想象的严谨性来设计、模拟、复现和相互借鉴彼此的工作。这是构建生物学工程化的脚手架——一个美丽的证明，说明[标准化](/sciencepedia/feynman/keyword/z_score_standardization)非但没有限制创造力，反而通过提供一个坚实共享的发现基础来释放它。", '#text': '元素。这是你的“导演评论音轨”，一个可以用富文本格式撰写散文、添加列表、解释你的假设以及模型背后生物学故事的地方。\n\n对于机器，则有'}, '#text': '元素内，为模型提供动态的脉搏。它就像舞台指导，不仅告诉演员做什么，还告诉他们要以多大的紧迫感去做。\n\n### 世界不可违背的法则\n\n每个宇宙，即使是模拟的，也必须有法则。有些简单，有些深奥。例如，如果我们的模型连接到一个巨大的外部某种分子储库怎么办？也许一个细胞浸泡在营养液中，其中葡萄糖的浓度实际上是无限且恒定的。消耗几个分子不会产生任何影响。SBML通过boundaryCondition属性来处理这种情况。通过为一个species设置boundaryCondition="true"，我们声明其浓度不受模型中反应的影响。它可以作为反应物，其浓度可以用于动力学定律，但其自身的值保持固定，由外部现实决定。这不同于constant="true"的species，后者像一块岩石——一个不能参与任何反应的不可变值。而一个边界物种更像一条河流——它流动并参与其中，但其水位由我们视野之外的源头维持。\n\n更深层次的是基本的守恒定律。想象一个酶 $E$ 与底物结合形成复合物 $C$ 。酶的总量，无论是游离的还是结合的，都必须是恒定的： $E(t) + C(t) = E_{\\text{tot}}$ 。SBML允许我们使用algebraicRule来强制执行这类不变量。代数法则是像 $E + C - E_{\\text{tot}} = 0$ 这样的数学等式，模拟过程在任何时候都必须满足。这是一条不可违背的法则。它将常微分方程组（ODE）转化为更复杂的微分代数方程组（DAE），迫使模拟停留在该法则成立的狭窄数学曲面上。\n\n这与另一个构件constraint（约束）有本质上的不同。约束更像一个裁判。你可以陈述一个应该为真的条件，比如“底物 $S$ 的浓度必须为非负” ( $S(t) \\ge 0$ )。如果在模拟过程中， $S$ 的值降至-0.001，模拟器会举起一面旗帜并警告你：“你所定义的物理定律被违反了！”但它本身不会阻止该值变为负数。约束用于验证，而代数法则用于强制执行。\n\n### 一门能够学习和成长的语言\n\n模型不是一座孤岛，它是科学交流的一部分。要使其真正有价值，它必须能被他人——包括人类和机器——所理解。SBML的设计出色地考虑到了这一点。为了你的科学家同事，你可以包含一个'}, '#text': '则列出了被生成的每个species。但是，仅仅说明谁参与其中还不够，我们还需要知道有多少。如果一个反应描述了蛋白质 $X$ 二聚化形成 $Y$ ，写为 $2X \\rightarrow Y$ ，我们需要指明需要两个 $X$ 分子。这是stoichiometry（化学计量）属性的工作。在反应物列表中，我们会引用species X并将其stoichiometry属性设置为“2”。化学计量是对生命化学过程的精确核算。\n\n但是那些指导情节发展但自身不发生改变的关键角色呢？想象一下反应 $S \\xrightarrow{E} P$ 中的一个酶。酶 $E$ 对于底物 $S$ 转化为产物 $P$ 至关重要，但酶本身在反应结束时被释放，并未改变。它既不是反应物，也不是产物。为此，SBML提供了一个特殊的角色：modifier（修饰剂）。被列为modifier的species会影响反应的速率，但不会出现在其化学计量的资产负债表上。它就像催化剂、抑制剂，或是在舞台侧面低声下达指令的导演。\n\n### 设定节奏：生命的韵律\n\n一个只列出谁做了什么的剧本是不完整的。它缺乏节奏、步调和动态。反应发生得多快？随着反应物增多，它会加速吗？这才是模型真正活起来的地方。\n\nSBML中的每个反应都可以有一个kineticLaw（动力学定律）。这个元素包含一个数学方程，用于计算任何给定时刻的反应速率。想象一下用狐狸和旅鼠来模拟一个捕食者-猎物生态系统。捕食的速率——即狐狸消耗旅鼠的“反应”——取决于有多少狐狸和旅鼠。旅鼠越多，它们就越容易被找到。狐狸越多，要喂养的嘴就越多。一个简单的动力学定律可能是rate = k * L * F，其中L和F是旅鼠和狐狸的数量，k是一个速率常数。这个数学表达式被放置在'}, '#text': '列举了反应中被消耗的每个species，而'}, '#text': '元素中描述。\n\n在反应内部，我们有该特定场景的演员表。'}, '#text': '文件。\n\n这个简单的层级结构思想意义深远。它意味着单个文件可以包含一个自给自足、完整的生物系统描述，一个便携的宇宙，你可以把它发送给世界另一端的同事，并确信他们打开后看到的是与你设计的完全相同的系统。\n\n### 选定角色：谁在剧中？\n\n生物学的故事是通过其分子角色来讲述的：蛋白质、基因和小分子，它们相互作用创造了生命。在SBML中，这些角色被称为species。每个species都在一个列表中定义，并具有其属性。它生活在一个特定的位置，一个compartment（区室），这可以是细胞质、细胞核，甚至整个生态系统。\n\n但是剧本如何跟踪每个角色呢？如果你有三个不同的分子都叫“激活剂”，导演怎么知道该给哪个提示？SBML用一个绝妙的区别解决了这个问题。每个species都有一个name属性，这是给我们人类看的友好标签，比如“葡萄糖”或“ATP”。但更重要的是，每个species都有一个id属性，一个唯一的、机器可读的标识符，如“s1”或“C_glucose”。这个id就像是分子的“社会安全号码”。在模型的其余部分，每当一个反应需要引用葡萄糖时，它不会使用模棱两可的名称，而是使用精确、唯一的id。这个简单的规则避免了混乱，并确保模型中的每个连接都是明确无误的。\n\n### 编写剧本：反应的作用\n\n角色选定后，就该展开情节了。生物模型中的情节来自reactions（反应）——驱动系统的转化、结合和催化过程。每一次相互作用，从酶将底物转化为产物，到两个蛋白质结合在一起，都在其各自的'}, '#text': '里，而书本身就是'}, '#text': '标签中，这个标签更像是剧本的封面，提供诸如所用语言版本之类的管理信息。故事在'}, '#text': '容器内。然后，它被包裹在一个外部的'}, '#text': '标签。你可以把它看作是总蓝图，或是一场宏大戏剧的舞台。所有定义这个特定生物故事的东西——所有的角色、规则和情节——都存在于这个'}, '#text': '## 原理与机制\n\n想象一下，你正试图向某人描述一个宏大而复杂的钟表装置。你不会只说“它能报时”，你会谈论齿轮、弹簧和擒纵机构。你会解释每个部件如何与下一个相连，摆轮缓慢而稳定的摆动如何决定秒针的轻快步伐。你会揭示将一个简单的物理原理转化为复杂而优美的功能的精妙逻辑。\n\n[系统生物学标记语言](/sciencepedia/feynman/keyword/systems_biology_markup_language)（SBML），就是我们用来描述生命这台精妙钟表装置的语言。它不仅仅是一种文件格式，更是一种以清晰、精确和可互换的方式表示生物过程的哲学。要理解SBML，就要欣赏如何在计算机中构建一个宇宙的美妙逻辑——一个拥有自己角色、情节和基本法则的宇宙。现在，让我们打开外壳，看看这些齿轮是如何[转动](/sciencepedia/feynman/keyword/rotational_motion)的。\n\n### 生物宇宙的蓝图\n\n每个故事都需要一个背景，一个展开情节的世界。在SBML中，一个完整的[生物模型](/sciencepedia/feynman/keyword/biological_models)——比如一个酵母细胞的完整[代谢网络](/sciencepedia/feynman/keyword/metabolic_networks)——都包含在一个单一的主元素中：'}