题 目:全基因组罕见变异一体化分析工具 STAARpipeline
报告人:李子林 教 授 东北师范大学数学与统计学院
入选国家级海外高层次人才计划青年项目。历任印第安纳大学医学院生物统计与健康数据科学系助理教授,哈佛大学生物统计系博士后、副研究员和研究员。本科与博士毕业于清华大学数学科学系,师从美国国家科学院与医学院两院院士林希虹院士。2023年当选为国际统计学会推选会员。主要研究方向为高维数据中的统计方法理论和统计遗传学。相关研究成果以第一作者或通讯作者在Journal of American Statistical Association、 Nature Methods和Nature Genetics等国际学术期刊发表。
报告摘要:
大规模全基因组测序 (whole-genome sequencing) 研究对上百万个全基因组进行了测序,发现了近十亿个变异位点,其中次等位基因频率小于1%的罕见变异(rare variants)占比率超过了99%。海量的罕见变异数据带来了分析上的一系列挑战:首先,全基因组测序数据缺乏全面且高效的分析软件和工具,超过98%的遗传变异位于非编码基因组。虽然现有研究在识别致病性编码罕见变异方面取得了一些进展,但是非编码罕见变异分析仍存在较大的研究空白。多组学数据中的功能注释数据提供了变异的功能性信息。然而,现有的罕见变异关联分析方法尚未有效地利用这些信息。针对这些问题和挑战,我们开发了全基因组一体化分析工具STAARpipeline,用于大规模测序数据的罕见变异分析。STAARpipeline提供了一个可扩展、灵活且简化的分析框架,并实现了分析流程的一体化和自动化。STAARpipeline的功能包括全基因组功能注释、常见和罕见变异关联分析、条件分析以及分析结果的汇总和可视化,发展了一系列新方法来选择非编码基因组中的罕见变异分析单位,同时通过STAAR方法整合多组学功能注释数据,实现了功能知情(functionally-informed)关联分析,增强了罕见变异分析的功效。本研究为全基因组数据提供了一个高效、高性能的分析工具,突破了全基因组测序数据罕见变异分析的运算和功效瓶颈,有助于加速新药物标靶的发现和精准健康的研究进程。