try ai
科普
编辑
分享
反馈
  • 血缘同源

血缘同源

SciencePedia玻尔百科
核心要点
  • 血缘同源(IBD)区分了那些作为单个祖先DNA分子物理拷贝的等位基因与那些仅仅是相同类型(状态同源,或IBS)的等位基因。
  • 近交系数(F)衡量一个个体中两个等位基因是IBD的概率,直接量化了与随机交配预期相比,种群中杂合子缺失的程度。
  • IBD用于计算遗传亲缘关系,如亲缘系数,这有助于通过汉密尔顿法则解释利他行为和社会结构的演化。
  • IBD的概念在不同领域有关键应用,包括在医学中评估隐性遗传病风险,在法医学中加强DNA证据,以及在保护生物学中规划遗传拯救。

引言

在生命科学研究中,很少有比“我们之间有何关系?”更基本的问题了。我们凭直觉知道,共同的特征可能意味着家族联系,但也可能仅仅是巧合。遗传学提供了一个强大的工具来规范化这个问题,超越了简单的外表,深入到DNA本身的层面。使我们能够做到这一点的核心概念是​​血缘同源(Identity by Descent, IBD)​​,这是一个简单而深刻的思想,它区分了因巧合而共享的性状和源自共同近代祖先的性状。理解IBD不仅仅是一项学术活动;它是揭示近亲繁殖机制、亲缘关系数学原理以及种群遗传命运的关键。

本文将探讨血缘同源的原理及其深远影响。首先,在“原理与机制”一章中,我们将剖析其核心理论,通过与状态同源(Identity by State, IBS)对比来定义IBD。我们将探讨如何通过近交系数和亲缘系数来量化IBD,以及它如何决定个体和种群的遗传构成。随后,“应用与跨学科联系”一章将展示这一概念如何像一把万能钥匙,贯穿整个生物科学领域,揭示其在医学、法医学、动物行为学和保护生物学中的关键作用。

原理与机制

想象一下,你遇到了两个都叫John Smith的人。他们同名这个事实意味着他们在“名字”这个属性上是状态相同的。但这并不能告诉你他们是否有亲缘关系。他们可能来自完全不同的大陆,他们同名仅仅是历史和文化上的巧合。现在,再想象一下你遇到了两兄弟。他们也姓“Smith”。但在他们的情况下,这种相同并非巧合;这是他们拥有一个共同近代祖先——他们的父亲——的直接结果。他们的名字是因血缘而相同的。

这个简单的类比是遗传学中最强大的思想之一的关键:​​状态同源(identity by state, IBS)​​和​​血缘同源(identity by descent, IBD)​​之间的区别。如果两个等位基因是相同类型,比如都是蓝色眼睛的等位基因,那么它们就是IBS。如果两个等位基因是来自一个共同近代祖先的同一个祖先DNA分子的物理拷贝,那么它们就是IBD。IBD是关于谱系、关于历史的陈述。IBS仅仅是关于当前形式的陈述。你可能会猜到,如果两个等位基因是IBD,那么它们也必定是IBS(假设在此过程中没有发生新的突变)。但反过来肯定不成立;种群中的两个蓝色眼睛等位基因可以是状态同源的,但并非血缘同源。这种区别是我们理解近亲繁殖、亲缘关系和遗传漂变的基础。

审视自身:近交系数

让我们不从两个不同的人开始,而是从一个二倍体个体内单个基因的两个等位基因开始。这两个等位基因是IBD的概率——即它们是来自谱系中同一个祖先等位基因的拷贝——是多少?这个概率有一个特殊的名字:​​近交系数​​,用字母 FFF 表示。

如果一个个体的两个等位基因是IBD,我们就说该个体在该基因座上是​​自身合子​​(autozygous)的。“Auto”意为“自身”,所以这字面意思是“因自身来源而纯合”。这些等位基因相同,因为它们是同一祖先DNA片段的拷贝。如果两个等位基因不是IBD,我们就说该个体是​​异源合子​​(allozygous)的(“allo”意为“其他”)。一个异源合子的个体仍然可以是纯合子(例如,基因型 AAAAAA),如果它碰巧遗传了两个IBS但来自不同、无亲缘关系的祖先系的 AAA 等位基因。这是状态纯合,而非血缘纯合。因此,近交系数 FFF 就是自身合子的概率。

近亲繁殖的代价:杂合子去哪了?

那么,当存在近亲繁殖(即 F>0F > 0F>0)时,一个种群的遗传构成会发生什么变化?让我们来仔细思考一下。考虑一个具有两个等位基因 AAA 和 aaa 的单个基因,它们在种群基因库中的频率分别为 ppp 和 qqq。我们想计算出基因型 AAAAAA、AaAaAa 和 aaaaaa 的预期频率。

随机抽取一个个体。其等位基因对有两种互斥的可能性:

  1. 这两个等位基因是IBD。其概率为 FFF。如果它们是IBD,它们必定是单个祖先等位基因的拷贝。这个祖先是 AAA 的概率为 ppp,是 aaa 的概率为 qqq。因此,这条路径对 AAAAAA 基因型的贡献概率为 FpFpFp,对 aaaaaa 基因型的贡献概率为 FqFqFq。注意,通过这种方式不可能形成杂合子 AaAaAa!
  2. 这两个等位基因不是IBD。其概率为 1−F1-F1−F。如果它们不是IBD,它们就像是从基因库中独立、随机抽取的两次。抽到两个 AAA 的概率是 p2p^2p2,两个 aaa 的概率是 q2q^2q2,一个 AAA 和一个 aaa 的概率是 2pq2pq2pq。因此,这条路径对 AAAAAA 基因型的贡献为 (1−F)p2(1-F)p^2(1−F)p2,对 aaaaaa 基因型的贡献为 (1−F)q2(1-F)q^2(1−F)q2,对 AaAaAa 基因型的贡献为 (1−F)2pq(1-F)2pq(1−F)2pq。

综上所述,总的基因型频率为:

  • P(AA)=Fp+(1−F)p2=p2+Fp(1−p)=p2+FpqP(AA) = Fp + (1-F)p^2 = p^2 + Fp(1-p) = p^2 + FpqP(AA)=Fp+(1−F)p2=p2+Fp(1−p)=p2+Fpq
  • P(aa)=Fq+(1−F)q2=q2+Fq(1−q)=q2+FpqP(aa) = Fq + (1-F)q^2 = q^2 + Fq(1-q) = q^2 + FpqP(aa)=Fq+(1−F)q2=q2+Fq(1−q)=q2+Fpq
  • P(Aa)=(1−F)2pqP(Aa) = (1-F)2pqP(Aa)=(1−F)2pq

仔细看这些结果。近亲繁殖将本应是杂合子的一部分个体(比例为 FpqFpqFpq)转变为纯合子(如果你验算一下,会发现 Fpq/2Fpq/2Fpq/2 变为 AAAAAA,Fpq/2Fpq/2Fpq/2 变为 aaaaaa)。最显著的结果是杂合子频率 HHH。在一个完全随机交配的种群中(其中 F=0F=0F=0),杂合子频率为 H0=2pqH_0 = 2pqH0​=2pq。在有近亲繁殖的情况下,它变为 H=H0(1−F)H = H_0(1-F)H=H0​(1−F)。

这为我们提供了一个非常直观的近交系数解释:FFF 是与随机交配预期相比,杂合子缺失的比例。如果一个种群的近交系数为 F=0.25F=0.25F=0.25,这意味着它的杂合子数量比仅根据其等位基因频率所预期的要少 25%25\%25%。近亲繁殖不改变种群中的等位基因频率 ppp 和 qqq,但它以不同的方式将它们“包装”成基因型,从而造成纯合子过剩和杂合子不足。

通往纯合的直线:自交案例

为了观察IBD的累积过程,让我们考虑一种最极端的近亲繁殖形式:自花受精,或称“自交”,这在许多植物中很常见。想象我们从第 t=0t=0t=0 代的一个杂合子植物 AaAaAa 开始。它的等位基因不是IBD,所以 F0=0F_0 = 0F0​=0。当它及其后代一代又一代地自交时,会发生什么?

一个杂合子亲本(AaAaAa)会以经典的孟德尔比率产生后代:1/41/41/4 AAAAAA,1/21/21/2 AaAaAa 和 1/41/41/4 aaaaaa。关键在于,纯合子后代(AAAAAA 和 aaaaaa)通过自交只能产生更多的纯合子后代。新杂合子的唯一来源是现有的杂合子。每一代中,杂合子后代中有一半本身也是杂合子。因此,种群中杂合子的比例 HtH_tHt​ 每代减半:Ht=12Ht−1H_t = \frac{1}{2} H_{t-1}Ht​=21​Ht−1​。

由于我们从 H0=1H_0 = 1H0​=1 开始,经过 ttt 代后,杂合子的频率就是 Ht=(12)tH_t = (\frac{1}{2})^tHt​=(21​)t。在这个特殊系统中,一个个体是杂合子,当且仅当其等位基因不是IBD。这给了我们一个直接的联系:Ht=1−FtH_t = 1 - F_tHt​=1−Ft​。结合这些方程,我们得到了一个关于近交系数随时间增加的优美表达式: Ft=1−(12)tF_t = 1 - \left(\frac{1}{2}\right)^tFt​=1−(21​)t 一代之后,F1=1/2F_1 = 1/2F1​=1/2。两代之后,F2=3/4F_2 = 3/4F2​=3/4。十代之后,F10≈0.999F_{10} \approx 0.999F10​≈0.999。种群迅速接近完全的自身合子状态,几乎每个个体都是纯合子。

血缘的纽带:量化遗传关系

到目前为止,我们使用IBD来审视个体内部。但它真正的力量在于用它来审视个体之间。我们可以定义一个称为​​亲缘系数​​(kinship coefficient),ϕxy\phi_{xy}ϕxy​ 的亲缘关系度量,即从个体 xxx 随机抽取一个等位基因,并从个体 yyy 随机抽取一个等位基因,这两个等位基因是IBD的概率。

这一定义揭示了谱系的秘密。例如,父母为 xxx 和 yyy 的孩子 zzz 的近交系数 FzF_zFz​ 是多少?孩子从 xxx 处获得一个等位基因(从 xxx 的等位基因中随机抽取),从 yyy 处获得一个等位基因(从 yyy 的等位基因中随机抽取)。这两个等位基因是IBD的概率,根据定义,就是其父母的亲缘系数 ϕxy\phi_{xy}ϕxy​。因此,我们得到了一个优雅而强大的法则: Fz=ϕxyF_z = \phi_{xy}Fz​=ϕxy​ 如果父母没有亲缘关系(ϕxy=0\phi_{xy}=0ϕxy​=0),他们的孩子就不是近交的(Fz=0F_z=0Fz​=0)。但如果父母有亲缘关系——比如,是表兄妹——他们的亲缘系数将大于零,他们的孩子将是近交的,其近交概率等于该亲缘系数。

现代亲缘观:计算共享的等位基因

借助现代基因组学,我们可以获得比单个亲缘系数更详细的亲缘关系图景。对于任何一对二倍体个体,我们可以问:在给定的基因座上,它们共享多少个IBD等位基因?有三种可能性:它们共享零个、一个或两个IBD等位基因。我们可以将这三种事件发生的概率定义为 k0k_0k0​、k1k_1k1​ 和 k2k_2k2​。

这组数字为任何关系提供了一个丰富的遗传指纹:

  • ​​亲子关系:​​ 孩子在每个基因座上与每个亲本都恰好共享一个IBD等位基因。另一个等位基因来自另一位亲本。因此,对于一对亲子,IBD状态总是 (k0,k1,k2)=(0,1,0)(k_0, k_1, k_2) = (0, 1, 0)(k0​,k1​,k2​)=(0,1,0)。
  • ​​全同胞:​​ 两个同胞有 1/41/41/4 的概率继承相同的父源等位基因和相同的母源等位基因(共享2个IBD),有 1/41/41/4 的概率继承不同的父源等位基因和不同的母源等位基因(共享0个IBD)。在剩下 1/21/21/2 的情况下,他们恰好共享一个IBD等位基因。因此,对于全同胞,(k0,k1,k2)=(1/4,1/2,1/4)(k_0, k_1, k_2) = (1/4, 1/2, 1/4)(k0​,k1​,k2​)=(1/4,1/2,1/4)。

注意其中的区别!你保证与你的父母共享一个等位基因,但你可能与你的同胞共享零个、一个或两个。这就是孟德尔分离定律在实践中展现的美妙不确定性。这些 kkk 概率可以通过公式 ϕ=14k1+12k2\phi = \frac{1}{4}k_1 + \frac{1}{2}k_2ϕ=41​k1​+21​k2​ 巧妙地与亲缘系数联系起来。对于亲子和全同胞关系,这都得出 ϕ=1/4\phi = 1/4ϕ=1/4,证实了你与你的父母和同胞平均亲缘程度相同的经典结果。对于只共享一个亲本的半同胞,其状态为 (1/2,1/2,0)(1/2, 1/2, 0)(1/2,1/2,0),得出的亲缘系数为 ϕ=1/8\phi = 1/8ϕ=1/8。

IBD的无情推进:遗传漂变与种群大小

最后,让我们将视野放大到整个种群。在一个小而孤立的种群中,即使交配是完全随机的,会发生什么?想象一个只有50人的小岛。几代之后,人们不可避免地会因为纯粹的偶然与远房表亲结婚。种群越小,这种情况发生得越快。每一代,仅仅因为潜在祖先的库是有限的,就会产生少量的IBD。这种不可避免的、随机的近亲繁殖随时间的增加是​​遗传漂变​​的核心部分。

这种增加的速度由​​近交有效种群大小​​ Ne(I)N_e^{(I)}Ne(I)​ 决定。在一个理想化的种群中,用于产生一个后代的两个等位基因来自上一代同一个祖先等位基因的概率是 12Ne(I)\frac{1}{2N_e^{(I)}}2Ne(I)​1​。这是一个新的IBD来源。近交系数的完整递推关系式变为: Ft+1=12Ne(I)+(1−12Ne(I))FtF_{t+1} = \frac{1}{2N_e^{(I)}} + \left(1 - \frac{1}{2N_e^{(I)}}\right)F_tFt+1​=2Ne(I)​1​+(1−2Ne(I)​1​)Ft​ 这个方程告诉我们,每一代,FFF 都会向 111 靠近一点。当 FFF 很小时,变化量大约为 ΔF≈12Ne(I)\Delta F \approx \frac{1}{2N_e^{(I)}}ΔF≈2Ne(I)​1​。这就是为什么保护生物学家如此关注有效种群大小。一个小的 NeN_eNe​ 意味着 FFF 的迅速增加、杂合度的迅速丧失以及近交衰退风险的增加,这可能为一个濒危物种带来厄运。血缘同源,这个最初用以区分两个John Smith的简单概念,最终成为了主宰整个种群遗传命运的关键变量。

应用与跨学科联系

既然我们已经掌握了血缘同源(IBD)的机制——即两个等位基因可以是一个祖先DNA片段的物理拷贝这一简单而深刻的思想——我们就可以踏上一段旅程。我们将看到这一个概念如何像一把万能钥匙,开启横跨生物科学这座宏伟殿堂的扇扇大门。它远非遗传学家使用的抽象记账工具;它是一项基本原则,解释了我们健康的内在细节、动物社会的结构、宏大的演化戏剧,甚至我们能从祖先骸骨中解读出的低语。IBD的踪迹无处不在。

我们基因中的双刃剑:医学与法医学

也许我们遇到IBD后果的最个人化场景是在我们自己的健康中。我们都携带一些“沉睡的”隐性等位基因——这些变异可能导致疾病,但只要与一个正常的、功能性的拷贝配对,它们就是无害的。在一个大型、随机交配的种群中,两个携带相同罕见隐性等位基因的个体相遇并生育孩子的机会是极小的。

但是当父母有亲缘关系时会发生什么?他们的孩子在某个基因座上继承的两个等位基因是血缘同源的概率不为零。这个概率正是近交系数 FFF。正如我们所见,这可以通过追溯家族树中的路径来计算,例如在表兄妹的经典案例中,我们发现 F=1/16F = 1/16F=1/16。近亲繁殖并不会创造新的缺陷等位基因,但它极大地增加了两个沉睡的拷贝在同一个人身上相遇的几率,从而唤醒隐性遗传病。致病等位基因在普通人群中越罕见,这种相对风险的增加就越显著。近亲繁殖就像一个遗传风险的聚光镜,这一事实在遗传咨询中至关重要。

这一原则不仅限于严重疾病。考虑Rh血型系统。当 ddd 等位基因在人群中很罕见时,一个孩子是Rh阴性(基因型 dddddd)是一个不太可能的事件。然而,如果这个孩子的父母是表兄妹,我们可以利用IBD的逻辑来追溯那个罕见等位基因在家族中的可能传递路径。我们甚至可以计算出孩子两个 ddd 等位基因不仅是状态同源,而且实际上是从某个特定祖父母那里遗传下来的IBD拷贝的概率,这为我们提供了一个观察遗传信息在代际间流动的强大窗口。

帮助我们理解家族相似性的同样逻辑,也可以用来以惊人的精确度确定身份。在法医学中,犯罪现场样本与嫌疑人之间的DNA匹配可能是强有力的证据。但必须问一个关键问题:一个无亲缘关系的人偶然匹配的概率是多少?为了回答这个问题,法医遗传学家使用等位基因频率的参考数据库。

在这里,IBD的一个微妙应用变得至关重要。如果一个嫌疑人属于一个小的、相对孤立的亚群,那么随机交配的假设可能不成立。该群体中的个体平均而言比普通人群中的随机个体有更近的亲缘关系。他们共享一个更高的“背景”IBD水平。为了考虑到这一点,法医分析师会应用一个“theta校正”(θ\thetaθ)。这个 θ\thetaθ 不过是该亚群的近交系数,量化了个体中两个等位基因因该群体内共同祖先而成为IBD的概率。应用这种校正可以得到一个更保守,因此也更科学上诚实的基因型频率估计。它承认两个等位基因可能看起来相同(状态同源),恰恰是因为它们源自一个共同的祖先(血缘同源),这使得该基因型在那个特定群体中的稀有程度低于广泛人群数据可能显示的水平。

社会的设计师与物种的拯救者

从个体转向种群,我们发现IBD是动物社会生活的主要设计师。利他主义之谜——为什么动物会冒着生命危险或牺牲自己的繁殖来帮助另一个体?——很大程度上由W. D. Hamilton通过广义适合度的概念解决。著名的汉密尔顿法则,rB>CrB > CrB>C,指出如果对接受者的利益(BBB)乘以行为者与接受者的亲缘关系系数(rrr)后,超过了行为者付出的代价(CCC),那么利他行为就会受到选择的青睐。

那个至关重要的亲缘关系系数 rrr,是IBD的直接度量。它可以被看作是行为者体内的某个基因与接受者体内的某个基因是因共同祖先而相同的拷贝的概率。例如,对于表兄妹,我们可以追溯他们共同祖父母的遗传路径,发现 r=1/8r = 1/8r=1/8。从“基因的视角”来看,帮助亲属是一种自利行为,因为它促进了存留在另一个身体中的自身IBD拷贝的存活。

这一逻辑在膜翅目昆虫——蚂蚁、蜜蜂和黄蜂——中得到了最壮观的证实。由于它们奇特的“单倍二倍性”遗传系统,即雄性是单倍体(来自未受精的卵),雌性是二倍体,亲缘关系中出现了一种惊人的不对称性。虽然二倍体的全姐妹(如人类或白蚁)平均共享一半的基因(r=1/2r = 1/2r=1/2),但单倍二倍体的全姐妹是“超级姐妹”,共享高达四分之三的基因(r=3/4r = 3/4r=3/4)。一个雌性与她姐妹的亲缘关系比与她自己后代的亲缘关系更近!这种高度的亲缘关系为雌性工蜂提供了一个强大的进化动力,促使她们放弃自己的繁殖,转而致力于帮助她们的母亲——蜂后——产生更多的姐妹。IBD的概念优雅地解释了遍布自然界的高度组织化且看似无私的真社会性群体的起源。

虽然IBD可以构建社会,但它也可能威胁到物种的生存。在小型、孤立的濒危动物种群中,配偶通常有亲缘关系。这导致种群平均近交系数 FFF 稳步增加。其后果是“近交衰退”:随着IBD变得越来越普遍,有害的隐性等位基因更频繁地被表达,导致生育力下降、婴儿死亡率升高以及对疾病的易感性增加。这导致了种群平均适合度的下降。

幸运的是,对IBD的理解也提供了解决方案。保护管理者可以通过向受威胁的种群中引入少量无亲缘关系的个体来规划“遗传拯救”。利用IBD的数学原理,他们可以计算出在一代之内将种群平均 FFF 值降低到临界阈值以下所需的最小移民比例。在这里,IBD不是一个被动的描述符,而是一个活跃的、定量的工具,用于保护生物多样性斗争的前线。

解读过去与重新定义现在:IBD的前沿

IBD的力量甚至延伸到了遥远的过去。随着古基因组学的出现,我们现在可以从古老的骨骼和牙齿中提取并测序DNA。这些数据通常质量很低——碎片化、稀少,并且充满了化学损伤。如何从这样嘈杂的数据中,确定埋葬在一起的两个尼安德特人是兄弟姐妹、亲子,还是仅仅是无亲缘关系的部落成员?我们无法绘制谱系图。

现代的解决方案是以一种更细致、更统计学的方式来估计IBD。研究人员不是估计一个单一的亲缘关系值,而是估计两个个体共享0、1或2个IBD等位基因的概率,记为 k0,k1k_0, k_1k0​,k1​ 和 k2k_2k2​。利用明确考虑了测序错误、死后损伤和种群等位基因频率的复杂似然模型,科学家们可以直接从杂乱的基因组数据中推断出这些IBD状态。这使得重建那些已经灭绝了数万年的种群的家庭结构和社会动态成为可能。

这种对IBD的统计学观点将我们引向最后一个深刻的概括。如果我们重新定义亲缘关系本身,使其不再需要家族树呢?在其最现代的形式中,亲缘关系被定义为一个回归系数: r=Cov(Gactor,Grecipient)Var(Gactor)r = \frac{\mathrm{Cov}(G_{\text{actor}}, G_{\text{recipient}})}{\mathrm{Var}(G_{\text{actor}})}r=Var(Gactor​)Cov(Gactor​,Grecipient​)​ 用通俗的话说,这只是在问:知道一个行为者的遗传构成在多大程度上能预测一个接受者的遗传构成?这种统计关联不必来自一个清晰、明确的谱系。它可以源于任何使得相互作用的个体在遗传上非随机的过程:有限的扩散(邻居往往是亲属)、选择性互动(“绿胡子”效应,即带有某种利他基因的个体会识别并帮助其他带有相同基因的个体),或任何形式的种群结构。这个定义对生物膜中的微生物和狮群中的狮子同样适用。

在这里,IBD的概念完成了它的转变:从一个关于家庭遗传的简单规则,变成了一个强大的、普适的统计遗传关联度量,适用于所有生命。

从遗传咨询师安静的诊室到蚂蚁熙熙攘攘的社会,从拯救物种最后成员的绝望努力到我们远古亲属的幽灵基因组,血缘同源是贯穿其中的共同主线。这样一个简单的想法——两件事物可以是一个原始物的拷贝——竟能产生对生命世界如此丰富而复杂的理解,这正是科学之美的证明。