2021年10月29日,《自然-通讯》(Nature Communications)在线发表了复旦大学生命科学学院徐书华团队的研究成果“Refining models of archaic admixture in Eurasia with ArchaicSeeker2.0”。该项工作提出了一种基于隐马尔科夫模型(Hidden Markov Model)的计算分析新方法ArchaicSeeker 2.0。相比于之前的方法,新方法能更有效地检测和量化近缘种的基因交流并在更精细的尺度上重构复杂的基因交流历史;该方法也适用于非人类物种的遗传数据分析。研究团队应用新方法分析了公共开放数据库中的人群基因组数据,重塑了欧亚大陆以及大洋洲现代人类(modern humans)史前与远古人类(archaic hominins)的基因交流模型并重构了现代人类的史前演化历史。
人类作为地球生命演化中很晚近才出现的物种,历史十分短暂,但是过程却错综复杂。近年来的研究发现,现代人类的祖先在“走出非洲”、向全球探索的征途中,可能与先期抵达的古人类接触并共存了相当长的时期,并且期间产生了基因交流。其中比较有代表性的古人类是目前已知的尼安德特人和丹尼索瓦人。虽然这些古人类作为物种在3万年前都走向了灭绝,但他们的基因片段却散布在包括我们自己在内的现存人类的基因组中。这个有趣的现象吸引了人类学、历史学、地质学、古生物学、考古学、遗传学等众多领域的科学研究者,有趣的、甚至令人惊奇的发现也持续在出现。然而,几个关键的问题亟待解决或缺乏令人满意的答案:1)如何在现代人类基因组中准确地识别出这些古人类的基因片段?2)通过对这些基因片段的研究是否可以揭示出现代人类与古人类的族群交融史?3)通过对从古人类遗传交融的分析视角,重新审视长期以来建立的人类演化模型,是否应修正或者改变我们对现代人类演化历史的认知?4)与古人类的遗传交融对现代人类遗传和表型多样性产生什么影响?特别是这些古人类基因片段具有什么样的进化和医学意义?出于对这些问题的好奇与研究热情,研究团队在前期研究基础上提出了新方法ArchaicSeeker2.0,藉由该方法分析和探讨了东亚、南亚、欧洲及大洋洲的现代人群与尼安德特人、丹尼索瓦人之间基因渐渗、共同演化的历史重构等一系列重要问题。研究团队进一步将该方法应用于分析全球人群基因组公共数据,从现代人类基因组中检测远古人类的基因序列并在更精细的尺度上重构史前人类在欧亚大陆的迁徙和基因交流历史。
1. 曾经发生在史前的基因交流,站在现代人类的立场,可视为远古人类对现代人类的基因渗入或遗传渐渗(genetic introgression)。由于基因渗入事件发生的时间比较久远(距今3~10万年前),古人类的基因片段由于基因重组往往碎片化为平均长度只有几万个核苷酸的DNA序列(人的基因组为30亿核苷酸长度),并且极度分散于现代人类基因组中。相比于近期的族群遗传融合(如美国黑人、南美拉丁裔人群)动辄几百万核苷酸大小的祖先片段,远古人类渗入的基因片段短了近百倍,为检测和判定工作带来诸多困难。除此之外,经过现代人类基因库几万年的重组稀释,远古人类基因片段总体上通常只占现代人全基因组序列的1~2%。极低的频率,极短的长度,和远古人类基因组数据的缺失等诸多因素都增加了从现代人类基因组序列中搜寻和鉴定远古人类基因片段的难度。而基于这1~2%的基因渗入信息推断史前人类发生的历史,则是一个更具挑战的问题。这也是长久以来各种方法的尝试都未取得良好效果的重要原因。研究团队为此专门设计了一种寻找远古人类基因渗入片段,基于渗入片段长度推断远古人类基因渗入历史的方法——ArchaicSeeker 2.0(图1)。该方法包含三个组成部分:(1)基于隐马尔科夫模型的渗入片段搜寻算法(seeking algorithm);(2)基于最大似然估计的序列匹配算法(matching algorithm);(3)基于似然比检验(likelihood ratio test)和最大期望算法(EM algorithm)的演化历史重构算法(history reconstruction algorithm)。相比于其他方法,ArchaicSeeker 2.0有如下三个优势:首先,该方法通过渗入片段搜寻算法,可以从海量的现代人基因组数据中,快速鉴定潜在的渗古人类基因序列,并能精准判定每个片段的大小和确定边界;其次,该方法在判定基因渗入片段的祖源过程中不依赖于是否具备已知的远古人类基因信息;第三,基于ArchaicSeeker 2.0的历史重构算法,不依赖于海量计算机模拟,即可有效地重构极为复杂的遗传渐渗历史。ArchaicSeeker 2.0的这些独特优势性能在计算机模拟数据和实验数据分析中得到了系统的评估与确证。结果表明,在远古人类基因片段的判定方面,ArchaicSeeker 2.0达到了超过90%的准确率,而误判率仅为约0.14%。在几乎所有的模拟实验中,至少 80%以上推断的古人类片段都能被匹配至正确的祖先上。同时,ArchaicSeeker 2.0在遗传混合事件次数、基因渗入比例和遗传交融发生的时间估计上也有良好的表现。ArchaicSeeker 2.0对远古人类基因渗入片段精准而高效地检测以及对遗传渗入历史的准确推断,也为研究现代人类和远古人类的混合历史重构提供了必备的信息和进一步分析的基础。
图1. ArchaicSeeker 2.0方法原理示意图
2. 早前研究表明非洲以外的现代人类基因组中存在少量尼安德特人、丹尼索瓦人等远古人类的渗入基因序列。然而不少关键的问题,如这些基因片段是何时、何地以及经由哪种远古人类渗入现代人类基因组,尚有较大争议。此前主流的研究结果大多基于DNA序列差异来计算混入片段和远古人类基因组差异,即通过分子钟计算分歧时间的方式确定渗入时间。但是,这类方法要求已测序的远古人类为基因渗入的远古人类的直系后代,否则估计的时间会较实际渗入时间偏早。而ArchaicSeeker 2.0方法是基于远古人类渗入基因片段的长度分布来推断渗入历史,该方法不仅能有效估计基因渗入时间,也能对渗入事件发生次数进行更准确的估计。利用ArchaicSeeker 2.0方法,研究团队对东亚、南亚、欧洲、大洋洲以及现代亚欧人类祖先乌斯特-伊斯姆人与尼安德特人、丹尼索瓦人的混合时间、次数进行估计。结合考古学证据,研究人员从时空尺度上重构了现代人类和远古人类的遗传交融历史。
3. 之前关于古人类与现代人类遗传混合的研究,大多基于现代人类“单次出非洲”的模型。然而研究团队发现,“单次出非洲”模型与现代人类史前和其他古人类如尼安德特人、丹尼索瓦人等的混合时间与次数存在矛盾。目前的数据需要至少两次出非洲迁移事件才能较好地解释。一次较早的“出非洲”迁徙发生在距今约6~12万年前,而较晚近的一次发生在距今6万年以后。早期走出非洲的现代人类祖先,在距今约9.4万年到11.9万年前,在中东、南亚附近,与丹尼索瓦人发生了第一次接触和基因交流。而后,他们继续向东前进,一部分留在南亚,一部分向北到达东亚南部,并分别与本地的丹尼索瓦人发生遗传交融。还有一支继续向东南迁徙,在距今6.2万年至6.4万年前,穿过华莱士线(Wallace Line)到达大洋洲与已先期到达的一支丹尼索瓦人融合。近期走出非洲的现代人类,距今4.8万年至5.9万年前,在中东地区与尼安德特人发生第一次接触和基因交流,之后,他们分别迁徙至欧洲、南亚、东亚,与各地尼安德特人发生了第二次族群融合。随后,南亚对欧洲的迁徙还将极少量的丹尼索瓦人的基因序列带入欧洲(图2-3)。
图2. 现代人类史前迁徙路线及其与远古人类的基因交流模式示意图
图3. 现代人类演化及其与远古人类遗传交融模式示意图
4 .基于ArchaicSeeker 2.0对古人类基因渗入片段精准高效地评估,研究团队分析了全球近300个现代人群中远古人类基因渗入序列功能及其分布特点,发现它们富集于免疫,体重(ZNF169),心肺功能(HHAT),紫外线响应和碳水化合物的代谢(HYAL1、HYAL2、HYAL3)等相关功能基因区域。除去这些远古人类渗入片段富集区域,研究团队还检测到了84个完全缺乏古人类基因片段的“渐渗沙漠”区域。而在这些“渐渗沙漠”区域中,显著富集了与皮肤发育和角化功能有关的基因。这些发现为揭示远古人类基因序列渗入对现代人类影响提供了线索,并为接下来进一步研究渗入基因片段的生物学功能以及远古人类遗传渐渗对现代人类进化的影响,提供了候选基因和研究靶标。
苑锴博士(中国科学院上海营养与健康研究所)、倪旭敏博士(北京交通大学)、刘畅,潘雨闻,邓恋青年研究员(复旦大学),张瑞(上海科技大学)为论文共同第一作者;复旦大学徐书华教授为该文的通讯作者,中国科学院上海营养与健康研究所为第一单位,复旦大学生命科学学院为通讯作者单位。
该项工作得到了中国科学院先导专项、国家自然科学基金委、上海市科委、国家重点研发计划、英国皇家学会牛顿基金等多项基金的资助,同时得到中国科学院动物进化与遗传前沿交叉卓越创新中心的支持。
论文链接: https://www.nature.com/articles/s41467-021-26503-5