【First-in-class药设系列】人工智能驱动的基因组变异算法设计与应用
在过去的十年里,基因组测序已经成为基因组学、遗传学以及医学应用领域中不可或缺的重要手段,并催生了众多关键性的发现与深刻的见解。目前,单核苷酸变异(single-nucleotide variations, SNVs)和微插入缺失(insertions or deletions, indels)的检测技术已经发展得相当成熟且精准,然而,诸如结构变异(structural variation, SVs)和拷贝数变异(Copy number variation, CNVs)等其他变异类型也逐渐成为研究的热点焦点。不过,对于这些变异类型的检测以及后续的解读工作,依然面临着诸多棘手的难题。过往的变异检测方法大多仅专注于SNVs或部分特定的变异类型,这无疑给实现多种变异类别的联合检测以及精准报告带来了巨大的挑战。而且,基因组本身所具有的高度多样性以及广泛存在的重复区域,更是进一步加剧了分析过程的复杂性。
传统的变异检测手段主要侧重于对SNVs和小indels的检测,对于SVs和CNVs的检测能力则相对薄弱。尽管长读技术(例如Oxford Nanopore Technologies或PacBio)在SV检测方面取得了显著的进步,但在成本控制、数据质量保障以及可扩展性等方面依然存在不容忽视的局限性。为了有效攻克上述种种挑战,亟需构建一个能够全面地识别所有变异类型的先进框架。近期,美国贝勒医学院的研究团队通过多基因组映射与泛基因组参考、硬件加速和机器学习等方法提出了一种改进的基因组变异检测算法DRAGEN。该算法能够检测包括SNP、插入缺失、结构变异和拷贝数变异在内的所有类型基因变异,支持全基因组、外显子组和转录组测序数据的分析。
DRAGEN算法整体工作流由多基因组映射、结构变异(SV)识别、单核苷酸变异(SNV)识别、拷贝数变异(CNV)识别、短串联重复(STR)识别及gVCF基因分型器等7个核心功能模块构成。多基因组映射是算法的一个关键组成部分,用于提高变异检测的准确性和效率。多基因组映射通过使用泛基因组参考来比对测序读段,从而更好地捕捉基因组的多样性。对于SNVs和indels(<50 bp),DRAGEN通过de Bruijn图组装含变异区域并输入隐马尔可夫模型来鉴定SNVs和小片段indels,输出(g)VCF文件。其SNV鉴定工具在噪声和测序错误处理上有创新,如样本特异性PCR噪声估计等。初步鉴定后,进一步使用机器学习重新打分,减少假阳性小变异并恢复假阴性。同时,该研究采用两种不同的方法鉴定SVs(≥50 bp基因组变化)和CNVs(≥1 kbp基因组变化)。
在SV鉴定上,DRAGEN扩展Manta算法,引入新移动元素插入检测器、优化大缺失鉴定参数、改进组装contig比对等8个关键概念提升SV鉴定准确性。识别基因组中CNV时,该研究针对1 kbp及以上变异,使用改进的移动水平模型通过Viterbi算法识别输入区间最可能状态,还结合SV鉴定中的不一致和分裂读信号检测1 kbp及以下事件。此外,DRAGEN可鉴定STR突变,用基于ExpansionHunter的方法分析致病性基因组区域。DRAGEN整合九个靶向鉴定器,精准鉴定临床相关基因,这些基因涉及药物代谢、疾病风险等,如发现GBA变异增加帕金森病等风险,HLA对免疫调节重要,HBA基因突变导致α-地中海贫血,LPA基因拷贝数与心血管风险相关等。
为了评估DRAGEN算法的变异检测性能,该研究在多个国际标准GIAB参考样本集进行了基准测试。结果表明,对于SNV和indel鉴定,DRAGEN(F1分数:98.64%)优于GATK(95.84%)、DeepVariant + BWA(97.32%)和DeepVariant + Giraffe(98.10%)。除了DRAGEN在SNVs上的明显改进,DRAGEN在SVs(>50 bp)上的表现也有所提升。同样,DRAGEN在50+ bp的缺失变异检测上也实现了更好的F1分数(82.60%),优于Manta(70.80%)、Delly(68.30%)和Lumpy(66.80%)。对于长度在1-5 kbp和5-10 kbp范围内的CNVs,DRAGEN的表现明显更好,F1分数分别为92.60%(CNVnator为39.20%)和96.60%(CNVnator为61.80%)。类似于SVs,STRs由于其重复性和复杂性,通常难以解析。在STRs鉴定方面,DRAGEN的F1分数显著提升,与GangSTR相比在交集区域和扩展区域的性能均更优。
DRAGEN在HG001-HG007样本的SNVs和indels鉴定上也表现出色,召回率和精确度极高,平均F1分数分别为99.80%和99.87%,显示出在所有样本中识别SNVs和indels的高性能一致性。与GATK、DeepVariant结合BWA和Giraffe的鉴定结果相比,DRAGEN在合并的SNVs和indels上错误率大幅降低,与GATK + BWA相比平均错误减少82.88%,与DeepVariant + BWA相比平均错误减少60.07%,与Giraffe + DeepVariant相比平均错误减少44.33%,这证实了DRAGEN在使用泛基因组参考时的优越性能。
研究进一步对1000人基因组计划(1KGP)中的3,202个全基因组测序数据集进行了性能测试,以发现其在大规模人群水平上的变异检测能力。在群体层面,DRAGEN共识别出116,346,215个SNVs和24,979,420个indels。主成分分析(principal component analysis, PCA)图显示了不同人群的小变异形成了明显的聚类,表明样本间存在共同的遗传祖先。在人群层面的SNVs和indels分布显示,非洲(African, AFR)超级人群拥有最多的SNVs和indels,这既归因于AFR群体更高的遗传多样性,也受到该群体样本数量多的影响。每个样本的平均SNVs数量从欧洲(European, EUR)的3,930,793到AFR的4,771,879不等,符合预期的多样性模式。东亚(East Asian, EAS)群体的小插入(<50 bp)数量最低,而AFR群体最高。这些发现不仅展示了DRAGEN在处理大规模基因组数据方面的卓越能力,还为未来的人群遗传学研究和精准医疗实践提供了重要的数据资源。
综上,DRAGEN是一种先进的基因组分析工具,具有全面性、准确性、速度和可扩展性四大优势。DRAGEN在各种变异类型的检测中展现出高准确度,采用先进的机器学习算法,在复杂区域和重复序列分析中表现卓越。使用现场可编程门阵列硬件加速方法(field-programmable gate array hardware acceleration),实现快速的端到端分析。此外,DRAGEN支持多样本并行分析,可轻松扩展到数千甚至数万个样本的规模,适用于大型基因组学项目,如UK Biobank等,且具有云端部署选项,能够根据需求灵活调整计算资源,确保在各种规模的项目中都能高效运行。
参考文献
1.Behera, S., et al., Comprehensive genome analysis and variant detection at scale using DRAGEN. Nature Biotechnology, 2024.
- Chen, X., et al., Manta: rapid detection of structural variants and indels for germline and cancer sequencing applications. Bioinformatics, 2016. 32(8): p. 1220-2.