2025年1月20日,Cell出版社旗下学术期刊STAR Protocols在线发表了复旦大学进化生物学中心徐书华团队的研究成果 “Protocol for reconstructing ancestral genomes from present-day samples by applying local ancestry inference”。该项工作提供了基于现代人基因数据重构祖源基因组的计算分析流程(图1)。

图1 重构祖先基因组分析流程图
地球上的每个人的基因构成都源自多个祖先;而任何两个人的特定基因片段都可以追溯至一个共同的祖先。遗传学研究往往依赖于祖源推断和共同祖先的相关信息。最近共同祖先的基因组通常无法直接获取,这些信息目前主要来源于古代DNA数据。然而,即便是日渐成熟的古DNA材料也只能提供一些零星和间接的信息。团队建立的分析流程基于现今人群的基因数据和局部祖源推断方法,准确识别来源于共同祖先的基因片段,借助群体遗传和分子演化原理,重构祖先基因组,从而很大程度上解决因缺乏共同祖先数据导致的数据缺失问题。该流程主要包括以下四个功能模块:(1)数据预处理及单倍型定相;(2)局部祖源推断;(3)构建祖先基因库并重构祖先基因组;(4)评估所重构的祖先基因组的模型参数。
该研究以文献和公开数据库中的中国苗族和畲族人群21号染色体数据为例,展示了从原始数据处理、检测和鉴定苗族和畲族同源基因组片段,到重构共同祖先基因组以及评估其遗传特征的完整分析流程。随分析流程发布的论文中详细描述了分析流程中每一步所需的输入文件格式、关键注意事项、代码执行命令以及对应的输出文件格式。此外,流程还列举了用户在操作过程中可能遇到的错误信息或文件问题,并提供了相应的解决方案,为用户顺利完成分析工作提供了有力保障。
复旦大学人类群体组学实验室科研助理、原国科大和上科大博士研究生张晓曦为该文第一作者;复旦大学人类表型组研究院博士生王宝楠、温佳、博士后高扬,原中国科学院上海营养与健康研究所潘雨闻博士对该文做出重要贡献;复旦大学进化生物学中心徐书华教授为通讯作者。该项目获得了国家重点研发计划、国家自然科学基金等多项基金的资助。
论文链接:https://www.sciencedirect.com/science/article/pii/S2666166724007457