文件名称:基于Hadoop基因序列比对BWT索引方法
文件大小:1.75MB
文件格式:PDF
更新时间:2024-05-19 20:15:14
Gene Sequence, BWT Index, Suffix
用于识别不同物种的同源性和变异性的基因序列比对是生物信息学的重要组成部分。 创建索引是基因序列比对算法的关键步骤。 通常的创建索引的算法分为两种。 第一种是基于哈希表的算法,另一种是基于后缀树或后缀数组的算法,其中BWT(Burrows-Wheeler变换)索引是重要的索引结构。 当前,BWT索引需要几个小时的串行计算才能构建大的基因组序列(例如人类基因组序列)。 提出了一种基于Hadoop并行计算方法,以建立后缀数组和BWT索引。 Map Reduce被用作一种数据处理功能,将后缀数组切成块,将单独处理。 最终,输出完全有序的后缀数组和BWT索引,从而减少了构建索引的时间。 同时,通过实验验证了算法的有效性。