try ai
科普
编辑
分享
反馈
  • 机器可读数据

机器可读数据

SciencePedia玻尔百科
核心要点
  • 机器可读数据如同可执行的蓝图,与人类可读的摘要不同,它能够实现计算上的可重复性和自动化。
  • 标准化的格式(如SBML、SBOL)和受控词汇(本体论)对于确保数据的无歧义性和互操作性至关重要。
  • FAIR原则(可发现、可访问、可互操作、可重用)为管理整个科学数据生命周期提供了一个全面的框架。
  • 实现机器可读性延伸到了伦理治理层面,即利用标准来编码数据使用协议并尊重数据主权。

引言

在科学发现的世界里,我们交流研究成果的方式与成果本身同等重要。传统方法呈现数据的方式往往像一张成品的照片——视觉上很吸引人,但缺少复现、验证或在此基础上进一步研究所需的底层指令。这造成了一个关键的鸿沟,阻碍了科学进步和可重复性。我们得到的成果是人类可读但机器不可操作的,将宝贵的知识锁定在PDF和图像等静态格式中。本文通过探索机器可读数据的变革性力量来应对这一挑战。

首先,在“​​原则与机制​​”部分,我们将解构使数据对计算机真正有用的核心概念。我们将从模糊的图片转向结构化的蓝图,探索标准化格式、受控词汇以及优雅的FAIR(可发现、可访问、可互操作、可重用)原则框架所扮演的角色。接下来,“​​应用与跨学科联系​​”部分将带领我们穿越合成生物学、工程学、公民科学和数据伦理等不同科学领域,展示这些原则如何付诸实践。您将了解到机器可读数据如何作为一种发现的通用语言,从而实现严谨的分析、自动化的工作流程以及对我们集体知识的负责任治理。

{'notes': {'annotation': {'notes': {'annotation': '则是给计算机的命令。\n\n这种为概念赋予唯一、通用标识符的思想,正是**受控词汇 (CVs)** 和**[本体论](/sciencepedia/feynman/keyword/ontologies) (ontologies)** 的功能。可以将它们视为科学家及其软件的词典。例如,在一个复杂的[蛋白质组学](/sciencepedia/feynman/keyword/proteomics)实验中,仅仅说一个[蛋白质](/sciencepedia/feynman/keyword/proteins)被“[磷酸化](/sciencepedia/feynman/keyword/phosphorylation)”了是不够的。是哪种[磷酸化](/sciencepedia/feynman/keyword/phosphorylation)?在哪个[氨基酸](/sciencepedia/feynman/keyword/amino_acids)上?像 **PSI-MOD([蛋白质修饰](/sciencepedia/feynman/keyword/protein_modification)[本体论](/sciencepedia/feynman/keyword/ontologies))** 这样的受控词汇为“O-磷酸-L-丝[氨](/sciencepedia/feynman/keyword/ammonia)酸”和所有其他可以想到的修饰提供了唯一的ID。这使得软件能够无[歧义](/sciencepedia/feynman/keyword/equivocation)地解释数据。\n\n同样,在报告一个定量值时,单位是什么?一个“10”的测量值是百分比、比率,还是一个任意的强度值?**单位[本体论](/sciencepedia/feynman/keyword/ontologies) (UO)** 为单位提供了标准标识符,因此计算机知道一个标记为UO:0000196(“无量纲单位”)的值是一个比率,而一个标记为 UO:0000031(“秒”)的值是时间的[度量](/sciencepedia/feynman/keyword/distance_function)。正是这种严格的语义精度,使得世界各地不同实验室的不同软件工具能够分析相同的数据集并得到相同的答案。这正是**互操作性**的精髓所在。一个由这类标准组成的完整[生态系统](/sciencepedia/feynman/keyword/ecosystems),例如用于原始质谱数据的 **mzML**、用于鉴定结果的 **mzIdentML**,以及用于定量总结的 **mzTab**,可以连接在一起,为一个实验提供完整、可追溯且可互操作的记录。\n\n### 宏伟愿景:[FAIR原则](/sciencepedia/feynman/keyword/fair_principles)与科学自动化\n\n我们为什么要费这么大劲?为什么如此执着于结构、[本体论](/sciencepedia/feynman/keyword/ontologies)和标识符?因为它是科学领域一个革命性新[范式](/sciencepedia/feynman/keyword/normal_forms)的基础,这个[范式](/sciencepedia/feynman/keyword/normal_forms)被**[FAIR原则](/sciencepedia/feynman/keyword/fair_principles)**所概括。该原则指出,数据必须是**可发现的 (Findable)**、**可访问的 (Accessible)**、**可互操作的 (Interoperable)** 和**可重用的 (Reusable)**。这不仅仅是一个巧妙的缩写词;它是一份旨在构建一个全球化、互联互通、自动化的科学事业的宣言。\n\n* **可发现与可访问 (Findable & Accessible):** 计算机如何找到您的数据?通过为其赋予一个全局唯一且持久的标识符,具体来说是一个可解引用的**统一资源标识符 (URI)**。这不仅仅是一个网页链接。一个FAIR URI是某个*事物*的永久名称——不是关于该事物的网页,而是该事物本身,无论它是一个基因、一个[蛋白质](/sciencepedia/feynman/keyword/proteins),还是一个生物设计。当计算机“解引用”这个URI时,就像在问:“告诉我关于你的一切。”通过使用一种名为**内容协商 (content negotiation)** 的标准网络协议,服务器可以根据请求者的不同以多种方式响应。它可能为浏览器中的科学家提供一个人类可读的网页 (text/html),或者为分析软件提供一个完整的、机器可读的蓝图 (application/sbol+xml)。这种对现有网络标准的巧妙运用,使得数据以一种强大而通用的方式变得既可发现又可访问。\n\n* **可互操作 (Interoperable):** 这就是我们已经探讨过的“使用相同语言”的原则。通过使用共享的文件格式和受控词汇,我们确保来自一个实验的数据能够被任何其他实验的数据所理解和集成。\n\n* **可重用 (Reusable):** 这是最终目标。为了使数据真正可重用,我们需要了解其完整的历史,即**来源 (provenance)**。它从何而来?使用了哪些工具进行处理?确切的参数是什么?一个简单的 README文件是不够的。现代[计算科学](/sciencepedia/feynman/keyword/computational_science)要求一个完整的、机器可读的“配方”。这可以通过使用**工作流语言**(如CWL或Nextflow)来编写整个分析流程的脚本,并结合**软件容器**(如[Docker](/sciencepedia/feynman/keyword/docker))来打包确切的计算环境——操作系统、软件版本和所有依赖项——来实现。其结果是一个完全封装的、可执行的分析描述。这保证了任何人在任何地方都可以重新运行该计算,并获得比特级相同的结果。这是可重[复性](/sciencepedia/feynman/keyword/renaturation)的终[极形式](/sciencepedia/feynman/keyword/polar_form)。\n\n将这些原则付诸实践,可以实现整个科学流程的自动化——即**[设计-构建-测试-学习 (DBTL) 循环](/sciencepedia/feynman/keyword/design_build_test_learn_(dbtl)_cycle|lang=zh-CN|style=Feynman)**。现在,科学家可以用像SBOL这样的格式创建一个设计,将其提交给云实验室或“[生物铸造厂](/sciencepedia/feynman/keyword/bio_foundry)”,后者会以编程方式解释该文件以“构建”物理DNA、运行实验,然后以符合[FAIR原则](/sciencepedia/feynman/keyword/fair_principles)的格式收集结果,并将这些结果反馈回“学习”和“设计”阶段。\n\n这不仅仅是记账。这是我们发现方式的根本性转变。通过从人类可读的图片转向机器可读的蓝图,我们正在创造一个知识网络,我们的计算工具可以读取、理解并在此基础上进行构建。我们正在教计算机阅读生命之书,以便它们能帮助我们书写下一个最激动人心的篇章。', 'applications': '## 应用与跨学科联系:发现的语言\n\n既然我们已经探讨了[机器可读数据](/sciencepedia/feynman/keyword/machine_readable_data)的原则与机制,您可能会认为这一切听起来像一个相当精细和正式的记账系统。在某种程度上,确实如此。但这与作曲家创作一部交响乐,让世界上任何一个管弦乐队都能演奏,或者数学家写下一个可被任何其他数学家验证的证明,是同一种“记账”。它是一种语言。它是一种通用语言,使我们对世界的观察能够被精确地传达,不仅仅是在人与人之间,更是在我们不同的科学仪器、计算工具之间,甚至在我们自己与未来的科学家之间。\n\n现在,让我们一同游览广阔的科学领域,看看这种语言的实际应用。我们将看到它如何为纷繁复杂的生命现象带来清晰度,如何确保我们的[计算模型](/sciencepedia/feynman/keyword/models_of_computation)和物理测量准确可靠,以及如何帮助我们建立一个全球性、集体性且值得信赖的世界认知体系——同时应对这种新能力所带来的深远的伦理责任。\n\n### 生命的语法:生物学中的无[歧义](/sciencepedia/feynman/keyword/equivocation)交流\n\n现代生物学的核心是海量的数据洪流。我们测序基因组、测量[蛋白质](/sciencepedia/feynman/keyword/proteins)、追踪[基因表达](/sciencepedia/feynman/keyword/gene_expression),一天之内产生的[信息量](/sciencepedia/feynman/keyword/information_content)比上一代人所能想象的还要多。但信息不等于知识。要将这股数据洪流转化为理解,我们必须首先学会如何无[歧义](/sciencepedia/feynman/keyword/equivocation)地讨论它。\n\n想象一下您正在研究一个基因。您发现一个区域被[转录](/sciencepedia/feynman/keyword/transcription)成RNA,但在最终的[信使RNA](/sciencepedia/feynman/keyword/messenger_rna)形成之前被剪切掉了。您可能会在笔记中称之为“干预序列”。另一个实验室的同事可能会称之为“非编码部分”,而数据库可能会使用正式术语“[内含子](/sciencepedia/feynman/keyword/introns)”。对人类来说,这些都很好理解。但对于一台试图聚合这三个来源数据的计算机来说,这就是一片混乱。机器无法知道这三个短语都指向同一个生物学概念。\n\n这正是共享的受控词汇——即[本体论](/sciencepedia/feynman/keyword/ontologies)——变得至关重要的地方。在[生物信息学](/sciencepedia/feynman/keyword/bioinformatics)中,最基本的[本体论](/sciencepedia/feynman/keyword/ontologies)之一是[序列本体论](/sciencepedia/feynman/keyword/sequence_ontology)(Sequence Ontology,简称SO)。SO不使用模糊的人类语言,而是为[生物序列](/sciencepedia/feynman/keyword/biological_sequences)上每一个可以想到的特征提供一个唯一的、稳定的、机器可读的标识符。因此,“五撇[非翻译区](/sciencepedia/feynman/keyword/untranslated_regions)”——即[转录](/sciencepedia/feynman/keyword/transcription)本中[蛋白质](/sciencepedia/feynman/keyword/proteins)编码部分开始之前的那一段——不仅仅是一个短语。它现在是,并且永远将是SO:0000204。它的定义是固定的:“[转录](/sciencepedia/feynman/keyword/transcription)本中不被翻译且位于[起始密码子](/sciencepedia/feynman/keyword/start_codon)上游的区域。”。通过使用这个标识符,日本的研究人员可以注释一个基因,而加拿大的计算机程序可以即时、完美地理解该注释,不是因为它“懂”英语,而是因为它识别代码 SO:0000204。这种用代码替换词语的简单行为,是创建生物学知识的可计算表示的第一步。\n\n这种唯一标识的原则不仅适用于抽象概念,也延伸到了物理样本。设想一个[合成生物学](/sciencepedia/feynman/keyword/synthetic_biology)实验,您在九种不同条件下培养了工程细胞,每种条件有三个重复。您从27个培养物中各取一个样本,将其一分为二,一份送到[蛋白质组学](/sciencepedia/feynman/keyword/proteomics)设施进行[蛋白质](/sciencepedia/feynman/keyword/proteins)分析,另一份送到[基因组学](/sciencepedia/feynman/keyword/genomics)设施进行[RNA分析](/sciencepedia/feynman/keyword/rna_analysis)。当数据返回时,[蛋白质组学](/sciencepedia/feynman/keyword/proteomics)实验室将样本标记为 MS_RUN_101、MS_RUN_102等,而[基因组学](/sciencepedia/feynman/keyword/genomics)实验室则使用了SEQ_PLATE1_A01、SEQ_PLATE1_A02等标签。您现在面临一个令人抓狂的难题:哪份[蛋白质](/sciencepedia/feynman/keyword/proteins)数据对应哪份RNA数据?\n\n一个设计良好的通用样本标识符 (Universal Sample Identifier, USI) 可以解决这个问题。您不是使用任意标签,而是在采集样本时就创建一个结构化的、可解析的标识符,例如20231028_ISO_E01_C05_R2_A_P。计算机可以读取它并知道:日期 20231028,项目 ISO,实验 E01,条件 C05,重复 R2,分样 A,类型为[蛋白质组学](/sciencepedia/feynman/keyword/proteomics) (P)。它的同源样本将是 20231028_ISO_E01_C05_R2_A_G(用于[基因组学](/sciencepedia/feynman/keyword/genomics))。这个标识符本身就成了一段机器可读的[元数据](/sciencepedia/feynman/keyword/metadata),它明确地将不同的数据流连接起来,确保无论这个生物样本经历了多少不同的分析路径,其完整的故事都得以保留。\n\n### 蓝图与机器:从设计到现实\n\n科学不仅是观察世界,也是构建和模拟世界。在[合成生物学](/sciencepedia/feynman/keyword/synthetic_biology)和[控制工程](/sciencepedia/feynman/keyword/control_engineering)等领域,蓝图、数学模型和物理现实之间的界限至关重要,而机器可读的标准正是连接它们的桥梁。\n\n[合成生物学](/sciencepedia/feynman/keyword/synthetic_biology)界已经开发出一个非常优美的标准[生态系统](/sciencepedia/feynman/keyword/ecosystems),来管理他们的[设计-构建-测试-学习循环](/sciencepedia/feynman/keyword/design_build_test_learn_cycle)。在设计一个新的基因线路时,他们不只是在白板上画图。他们使用[合成生物学开放语言](/sciencepedia/feynman/keyword/synthetic_biology_open_language) (SBOL) 来描述它。SBOL 充当了机器可读的蓝图,用唯一的标识符定义了每一个[遗传](/sciencepedia/feynman/keyword/genetic_inheritance)部件([启动子](/sciencepedia/feynman/keyword/promoters)、基因、终止子)及其相互之间的关系。\n\n然后,为了在构建前“测试”设计,他们创建了一个数学模型来描述该线路*应该*如何表现——通常是一个[微分方程组](/sciencepedia/feynman/keyword/system_of_differential_equations)。这个模型不仅仅是写下来;它被编码在[系统生物学标记语言](/sciencepedia/feynman/keyword/systems_biology_markup_language) (SBML) 中。SBML 以任何兼容的模拟软件都能执行的格式,捕捉了数学结构、参数和单位。但究竟应该如何模拟呢?[模拟实验描述标记语言](/sciencepedia/feynman/keyword/sed_ml) ([SED-ML](/sciencepedia/feynman/keyword/sed_ml)) 提供了“配方”,指定了确切的数值[算法](/sciencepedia/feynman/keyword/algorithm)、时间[步长](/sciencepedia/feynman/keyword/step_size)和初始条件。最后,整个软件包——SBOL设计、SBML模型、[SED-ML](/sciencepedia/feynman/keyword/sed_ml)协议以及任何相关数据——都被捆绑在一个COMBINE存档中。这个单一文件是对一个科学思想的完整、独立且可执行的描述,使任何人都能完美地复现模拟结果。\n\n这种对完整、可计算的问题规范的深层需求,也出现在表面上看起来截然不同的领域,比如[控制理论](/sciencepedia/feynman/keyword/control_theory)。当[航空航天工程](/sciencepedia/feynman/keyword/aerospace_engineering)师想要验证一个新的飞行[控制器](/sciencepedia/feynman/keyword/control_unit)的稳定性时,他们会使用一种称为结构化[奇异值](/sciencepedia/feynman/keyword/singular_values)(或 $\\mu$)的工具进行复杂的鲁棒性分析。结果是一张图,显示了系统在不同频率下对各种不确定性(如[空气动力学](/sciencepedia/feynman/keyword/aerodynamics)系数或传感器噪声的变化)的鲁棒性。要使这个分析可复现,仅仅分享最终的图或代码是不够的。您必须提供整个问题的机器可读规范:飞行器互联的精确[线性模型](/sciencepedia/feynman/keyword/linear_models) ($M(s)$)、不确定性结构 ($\\Delta$) 的完整描述、用于计算的精确频率网格以及求解器设置。分析的最终证明是“证书”——对于 $\\mu$ 的下界,这就是[算法](/sciencepedia/feynman/keyword/algorithm)发现的显式最坏情况扰动 $\\Delta^{\\star}$。这个证书是一个机器可读的对象,其他研究人员可以拿它代入系统方程,亲自验证它确实揭示了系统的脆弱性。无论在生物学还是工程学中,模式都是一样的:要复现一个结果,您需要对问题进行完整的、无[歧义](/sciencepedia/feynman/keyword/equivocation)的、机器可读的陈述。\n\n### 从原始信号到科学洞见:原始数据的神圣性\n\n每一次实验测量都始于一个原始信号——探测器的咔哒声、光电倍增管的[电压](/sciencepedia/feynman/keyword/voltage)、相机上的像素值。从这个原始信号到最终发表的图表,中间经历了一系列处理步骤,每一步都有其自身的参数和假设。为了确保这一过程透明且可复现,我们必须将原始数据视为神圣不可侵犯,并以机器可读的格式记录下每一步。\n\n考虑一个在[同步加速器](/sciencepedia/feynman/keyword/synchrotron)上进行的实验,这是一个产生极强[X射线](/sciencepedia/feynman/keyword/x_rays)以探测材料结构的巨型机器。一位化学家可能正在使用[X射线吸收光谱 (XAS)](/sciencepedia/feynman/keyword/x_ray_absorption_spectroscopy_(xas)|lang=zh-CN|style=Feynman) 研究[催化剂](/sciencepedia/feynman/keyword/catalysts)的反应过程。他们想要的最终结果是[吸收系数](/sciencepedia/feynman/keyword/extinction_coefficient) $\\mu(E)$ 的图,但机器实际测量的是原始强度:入射光束 ($I_0$) 和透射光束 ($I_t$)。[吸收系数](/sciencepedia/feynman/keyword/extinction_coefficient)是根据[比尔-朗伯定律](/sciencepedia/feynman/keyword/beer_lambert_law) $\\mu(E) \\propto \\ln(I_0 / I_t)$ 计算出来的。如果您丢弃了 $I_0$ 和 $I_t$,只保留最终的 $\\mu(E)$,那您就抛弃了让任何人检查您工作的可能性。如果 $I_0$ 监视器出现了故障怎么办?如果您使用的能量[校准](/sciencepedia/feynman/keyword/calibration)略有不准怎么办?没有原始数据,任何人都无法回头用改进的方法来验证或重新处理您的结果。\n\n对于模拟管道中[流体流动](/sciencepedia/feynman/keyword/fluid_flow)的计算工程师来说也是如此。模拟程序会输出代[表压](/sciencepedia/feynman/keyword/gauge_pressure)力、[速度](/sciencepedia/feynman/keyword/velocity)和温度的数字。如果这些数字仅仅以数字表格的形式存储,它们几乎毫无用处。[压力单位](/sciencepedia/feynman/keyword/pressure_units)是帕斯卡还是磅/平方英寸?温度是[摄氏度](/sciencepedia/feynman/keyword/celsius)还是[开尔文](/sciencepedia/feynman/keyword/kelvin)?人类或许能从上下文中猜出,但一个负责自动验证结果是否符合物理定律的计算机程序却做不到。解决方案是使用像HDF5这样的自描述数据格式。在文件中,除了存储“压力”的数值数据数组外,您还存储了机器可读的属性:一个 units属性设置为“Pa”(遵循像UCUM这样的标准),以及一个dimensions属性,存储基本[国际单位制](/sciencepedia/feynman/keyword/si_system)单位的[指数](/sciencepedia/feynman/keyword/exponent)向量(对于压力,这将表示为 $[M^1 L^{-1} T^{-2}]$)。现在,后处理脚本可以读取该文件,并自动将所有量转换为一致的单位系统,或者执行[量纲分析](/sciencepedia/feynman/keyword/dimensionless_analysis)来检查像[动压](/sciencepedia/feynman/keyword/dynamic_pressure) $q = \\frac{1}{2}\\rho \\lVert \\mathbf{u} \\rVert^{2}$ 这样的方程是否量纲一致。这不仅仅是为了方便,它是一种能自动检测和预防根本性错误的强大方法。\n\n### 构建自然图书馆:数据集成与生命周期\n\n[机器可读数据](/sciencepedia/feynman/keyword/machine_readable_data)的最终承诺是超越单个实验,构建一个全球性、互联互通的科学知识库。这不仅要求单个数据集结构良好,还要求有共同的标准使其能够被集成,并且我们有一个稳健的计划来管理它们的整个生命周期,从创建到停用。\n\n一个绝佳的例子是整合来自[公民科学](/sciencepedia/feynman/keyword/community_science)项目数据的挑战。世界各地成千上万的志愿者正在观察鸟类、植物和昆虫,并记录他们的发现。一个项目可能使用一个带有“鸟类类型”列的[电子](/sciencepedia/feynman/keyword/electrons)表格,另一个项目用“物种名称”,第三个项目用“拉丁名”。将这些数据集结合起来研究大规模[生物多样性模式](/sciencepedia/feynman/keyword/biodiversity_patterns)是一场集成的噩梦。这正是[达尔文](/sciencepedia/feynman/keyword/charles_darwin)核心 (Darwin Core, DwC) 标准所解决的问题。DwC为[生物多样性](/sciencepedia/feynman/keyword/biodiversity)数据提供了一个标准模式。一条记录不仅仅是[电子](/sciencepedia/feynman/keyword/electrons)表格中的一行;它是一个“出现记录 (occurrence)”,拥有明确定义的术语,如scientificName(科学名称)、eventDate(事件日期)、decimalLatitude(十进制度纬度)、decimalLongitude(十进制度经度)和 basisOfRecord(记录依据)。通过将它们各自不同的本地模式映射到[达尔文](/sciencepedia/feynman/keyword/charles_darwin)核心的通用语言,这些[公民科学](/sciencepedia/feynman/keyword/community_science)项目可以为一个全球数据库做出贡献,而这个数据库的威力远超其各部分之和。\n\n这种集成知识库的愿景在FAIR指导原则中得到了正式阐述——数据应是可发现的、可访问的、可互操作的和可重用的。使用像DOI这样的持久性标识符使数据变得可发现。使用标准协议使其变得可访问。使用像[达尔文](/sciencepedia/feynman/keyword/charles_darwin)核心这样的共享词汇使其变得可互操作。而附加一个清晰的、机器可读的许可证(如知识共享许可证)则使其变得可重用。\n\n但是,当这个巨大知识库中的一条数据被发现是错误的,该怎么办?也许一个序列被污染了,或者一个[结构模型](/sciencepedia/feynman/keyword/structural_models)基于一个有缺陷的实验。天真的解决方案是简单地[删除](/sciencepedia/feynman/keyword/deletion)该记录。但这是一个糟糕的主意。它破坏了科学记录。任何曾引用该记录唯一[登录号](/sciencepedia/feynman/keyword/accession_number)的论文现在都指向一个[黑洞](/sciencepedia/feynman/keyword/black_holes),使得之前的工作无法复现。优雅的解决方案是用机器可读的[状态标志](/sciencepedia/feynman/keyword/status_flags)来管理数据的生命周期。您不是[删除](/sciencepedia/feynman/keyword/deletion)记录,而是将其移至“数据停尸房”。该持久性标识符现在会解析到一个“墓碑”页面,该页面以人类和机器都可读的方式清楚地说明该记录已被撤回、撤回原因以及撤回时间。有缺陷的数据会从默认搜索结果中移除,以防止被意外使用,但它仍然可用于法医式检查。这是一个成熟、负责任的系统,用于管理我们集体知识的[完整性](/sciencepedia/feynman/keyword/holonomy)。\n\n### 机器中的人性:伦理、责任与治理\n\n或许,[机器可读数据](/sciencepedia/feynman/keyword/machine_readable_data)最深刻的前沿领域不在技术层面,而是在社会和伦理层面。随着我们收集越来越多,特别是来自和关于人的数据,我们必须建立尊重权利、同意和主权的系统。机器可读性的原则为我们提供了实现这一目标的强大工具。\n\n考虑一个正在生成基因组数据的大型联盟。其中一些数据来自实验室工程改造的微生物——这并不特别敏感。但其他数据来自志愿者提供的人类肠道[宏基因组](/sciencepedia/feynman/keyword/metagenome)样本。还有一些数据来自从原住民管理的土地上采集的环境样本。将所有这些数据同等对待将是一个严重的伦理失误。\n\n这正是原住民数据治理的CARE原则(集体利益、控制权、责任、伦理)成为[FAIR原则](/sciencepedia/feynman/keyword/fair_principles)关键伙伴的地方。目标不仅仅是让数据可重用,还要确保其被负责任地、公平地使用。机器可读的数据标准为我们提供了执行这一点的机制。对于敏感的人[类数](/sciencepedia/feynman/keyword/class_number)据或具有主权的原住民数据,[FAIR原则](/sciencepedia/feynman/keyword/fair_principles)下的“可访问”并不意味着向公众开放。它意味着在受控、可审计的条件下可以访问。\n\n我们现在可以创建远远超出“仅限非商业用途”范围的机器可读许可证。使用像全球[基因组学](/sciencepedia/feynman/keyword/genomics)与健康联盟(GA4GH)的数据使用[本体论](/sciencepedia/feynman/keyword/ontologies)(DUO)这样的工具,我们可以为一个数据集附加特定的、可计算的条款,例如 DUO:0000007(“特定疾病研究”)。当研究人员请求访问数据时,计算机系统可以自动检查其声明的目的是否与允许的用途相符。对于原住民数据,可以将传统知识(TK)标签[嵌入](/sciencepedia/feynman/keyword/intercalation)到[元数据](/sciencepedia/feynman/keyword/metadata)中。这些是机器可读的图标,传达了社区对数据使用的规则和期望,确保即使数据远离其来源地,其权威和协议也得到尊重。\n\n这是[机器可读数据](/sciencepedia/feynman/keyword/machine_readable_data)的终[极体](/sciencepedia/feynman/keyword/polar_bodies)现:一个不仅编码了关于世界的事实,还编码了我们的价值观、我们的协议以及我们对彼此的伦理承诺的系统。它将我们的数据基础设施从一个简单的文件集合转变为一个真正的治理体系。\n\n从基因的精确定义到基因组信息的伦理管理,[机器可读数据](/sciencepedia/feynman/keyword/machine_readable_data)的原则提供了一条统一的线索。它是一种语言,在21世纪的科学中实现了严谨性、可重[复性](/sciencepedia/feynman/keyword/renaturation)和责任感。正是这种安静而关键的基础设施,让我们能够构建一个对宇宙的集体、可计算且日益可信的理解。', '#text': ' 是写给朋友的信;而 '}, '#text': ' 部分。这个部分是为机器保留的。在这里,像“ATP”这样的模型组件不仅仅是一个三字母标签;它通过一个结构化的、无歧义的格式,被正式链接到一个通用的数据库条目,例如 CHEBI:15422。'}, '#text': ' 部分,科学家可以在其中撰写自由文本、人类可读的段落,以解释他们的假设或感谢同事。但它还有一个 '}, '#text': '## 原则与机制\n\n想象一下,您想建造一座复杂而美丽的乐高城堡。一位朋友给您发来一张他们完成的杰作的照片。这张照片无疑很鼓舞人心。您可以看到高耸的尖塔、吊桥和五彩的旗帜。但您能重建它吗?不完全能。您不知道每种类型的积木用了多少块,它们内部是如何连接的,或者用了什么巧妙的技巧来支撑那座看起来摇摇欲坠的塔楼。这张照片是供人欣赏的,而不是供机器——或另一位建造者——执行的。\n\n这个简单的类比直击了我们需要[机器可读数据](/sciencepedia/feynman/keyword/machine_readable_data)的核心原因。许多传统的[科学交流](/sciencepedia/feynman/keyword/science_communication)就像那张照片:一张静态的图像、一篇PDF文章、一张演示文稿上的图表。它向人类读者传达了最终结果,却丢弃了复现、验证或在此基础上进一步研究所需的精确、[分步](/sciencepedia/feynman/keyword/fractionation)的指令。相比之下,[机器可读数据](/sciencepedia/feynman/keyword/machine_readable_data)则是完整的乐高说明书:一份结构化、无[歧义](/sciencepedia/feynman/keyword/equivocation)的蓝图,计算机可以解析、解释并据此采取行动。\n\n### 从图片到蓝图:对结构的需求\n\n让我们走进一个现代生物学实验室。一位合作者通过[电子](/sciencepedia/feynman/keyword/electrons)邮件给您发送了一个描述[质粒](/sciencepedia/feynman/keyword/plasmids)的文件——这是他们设计的一个小型环状DNA片段。该文件是一张PowerPoint幻灯片,上面有一个精美的圆形图,用彩色箭头指向诸如 AmpR([氨](/sciencepedia/feynman/keyword/ammonia)苄[青霉素](/sciencepedia/feynman/keyword/penicillin)抗性基因)和 GFP([绿色荧光蛋白](/sciencepedia/feynman/keyword/green_fluorescent_protein))之类的基因。它看起来很专业,但对于[合成生物学](/sciencepedia/feynman/keyword/synthetic_biology)家来说,这几乎[和乐](/sciencepedia/feynman/keyword/holonomy)高城堡的照片一样无用。\n\n为什么?因为这位生物学家的首要任务是计算性的。他们需要找到特定DNA序列中每一个可以被切割[酶](/sciencepedia/feynman/keyword/enzymes)(比如 *EcoRI*)切割的位点。他们需要逐个碱基验证整个[质粒](/sciencepedia/feynman/keyword/plasmids)的确切序列,而这个序列长达数千个[核苷酸](/sciencepedia/feynman/keyword/nucleotides)。计算机无法“读取”一个标有“GFP”的箭头图像,并理解其在腺[嘌呤](/sciencepedia/feynman/keyword/purines)(A)、鸟[嘌呤](/sciencepedia/feynman/keyword/purines)(G)、胞嘧啶(C)和[胸腺](/sciencepedia/feynman/keyword/thymus_gland)嘧啶(T)组成的底层序列方面的含义。图像是人类可读的摘要,但从完整、详细的蓝图(序列)到图片的转换是一种**[有损数据压缩](/sciencepedia/feynman/keyword/lossy_data_compression)**。至关重要的底层信息已被丢弃,无法完美恢复。\n\n解决方案是放弃图片,转而采用真正的蓝图。这正是[标准化](/sciencepedia/feynman/keyword/z_score_standardization)的、基于文本的格式发挥作用的地方。例如,**[FASTA](/sciencepedia/feynman/keyword/fasta)** 文件提供了原始的DNA序列,即一长串由A、T、G、C组成的字符串——这是绝对的基准真相。而 **[GenBank](/sciencepedia/feynman/keyword/genbank)** 文件则更进一步。它包含了完整的序列 *以及* 一套丰富的机器可读注释,标记了每个基因、[启动子](/sciencepedia/feynman/keyword/promoters)和其他功能元件的确切起始和终止坐标。更高级的标准,如**[合成生物学开放语言](/sciencepedia/feynman/keyword/synthetic_biology_open_language) (SBOL)**,不仅可以表示各个部分,还可以表示它们的层次关系和预期功能,从而有效地从头开始描述整个设计。有了这些文件,计算机可以立即执行虚拟[酶](/sciencepedia/feynman/keyword/enzymes)切、搜索序列,并以完美的保真度归档设计。蓝图就此完整了。\n\n### 使用相同的语言:[标准化](/sciencepedia/feynman/keyword/z_score_standardization)的力量\n\n拥有一份蓝图是一个很好的开始,但如果每个人都用自己的私有语言来编写它,那还远远不够。想象一下,一本说明书使用“蓝色2x4积木”,而另一本则称同一个部件为“天蓝色长方形”。为了实现真正的协作和自动化,我们需要一种共享的、通用的语言。这就是**[标准化](/sciencepedia/feynman/keyword/z_score_standardization)**的作用。\n\n这一原则比文件格式本身更为深刻。即使在单个[标准化](/sciencepedia/feynman/keyword/z_score_standardization)文件中,我们也必须区分给人类看的注释和给机器看的指令。**[系统生物学标记语言](/sciencepedia/feynman/keyword/systems_biology_markup_language) (SBML)** 是一个用于表示[生物网络](/sciencepedia/feynman/keyword/biological_networks)[计算模型](/sciencepedia/feynman/keyword/models_of_computation)的标准,它为此提供了一个绝佳的例证。一个SBML文件有一个 '}