文件名称:基于下一代测序数据的重复查找器算法,
文件大小:228KB
文件格式:PDF
更新时间:2024-04-06 14:37:39
—Interspersed Repeats; Tandem Repeat; ;
在几乎所有的真核生物基因组中,不同长度的重复序列都很常见,据推测其中大多数具有重要的调控功能,并可能导致基因组不稳定。 因此,鉴定这些重复性基因组是进一步分析的关键部分。 不幸的是,目前重复检测方法都是基于参考基因组或参考基因组与重复数据库的结合。 到目前为止,还没有专门设计用于直接从NGS数据中组装重复内容的重复检测方法。 为了克服这个问题,本文提出了一种新的重复查找器方法,称为NGSRepeatFinder,它是专门为直接从NGS数据中组合重复数据而设计的。 NGSRepeatAssembler具有两个重要属性:1)检测重复; 2)估计拷贝数。 NGSRepeatAssembler可以通过组合重复内容并估计高覆盖深度的副本数来检测重复。 NGSRepeatAssembler的性能在模拟数据集和实际参考数据集中进行评估。 结果表明,在高覆盖率条件下,重复序列的组装精度和估计的拷贝数分别高达99%和100%。