上次,我们对测序数据去了人源序列。接下来我们就要对去人源的reads进行微生物物种注释。
我们选择karken2和bracken。
首先是建立karken2的数据库,有多种方法。
方法一:kraken2-build --standard --threads 4 --db ./standardDB #时间太慢
方法二:直接下载官方提供的数据库(包括kraken2及bracken),解压即可
wget https://genome-idx.s3.amazonaws.com/kraken/k2_pluspf_20210517.tar.gz
wget https://genome-idx.s3.amazonaws.com/kraken/k2_pluspf_8gb_20210517.tar.gz
wget https://genome-idx.s3.amazonaws.com/kraken/k2_standard_20210517.tar.gz #时间太慢
# 方法3:手动构建数据库 #时间太慢
## step1 从 NCBI 下载分类文件
kraken2-build --download-taxonomy --db ./K2db
## step2 下载序列数据
kraken2-build --download-library UniVec_Core --threads 15 --db ./K2db
kraken2-build --download-library UniVec --threads 4 --15 ./K2db
## step3 构建数据库
kraken2-build --build --threads 4 --db ./K2db
前三种时间都比较慢,所以我不用。
第四种方法为 在windows环境下登录官网https://benlangmead.github.io/aws-indexes/k2下载自己想要的数据库,官网中有诸多类型的数据库。
官网里面有很多已经做好的数据库。我们可以选择合适的使用。
我这里先下载 standard-8 数据库
#解压缩,kracken和bracken的数据就都好了。
tar -zxvf k2_standard_08gb_20231009.tar.gz
解压缩出来的是这些文件。
接下来就可以跑数据了。
kraken2 --threads 15 --paired --db /mnt/h/db/kraken2.db --report A1.kreport --output A1.kraken read_hont_removed.1.fq.gz read_hont_removed.2.fq.gz
-
kraken2
: 运行 Kraken 2 软件。 -
--threads 15
: 指定使用的线程数为 15,即并行处理的线程数。 -
--paired
: 表示输入的是 paired-end 测序数据。 -
--db /mnt/h/db/kraken2.db
: 指定 Kraken 2 数据库的路径,即要用于比对和分类的数据库。 -
--report A1.kreport
: 指定输出报告文件的名称为 A1.kreport,该报告包含了分类和注释的结果信息。 -
--output A1.kraken
: 指定输出文件的名称为 A1.kraken,该文件包含了每个 reads 的分类结果。 -
read_hont_removed.1.fq.gz read_hont_removed.2.fq.gz
: 输入的 paired-end 测序数据文件,分别是第一端和第二端的 fastq 文件。
接下来就是bracken.
bracken -d /mnt/h/db/kraken2.db -i A1.kreport -o A1.bracken.S -w A1.bracken.S.kreport -l S -t 15
-
bracken
: 运行 Bracken 软件。 -
-d /mnt/h/db/kraken2.db
: 指定 Kraken 2 数据库的路径,即要用于物种丰度估计的数据库。 -
-i A1.kreport
: 指定输入的 Kraken 2 分类报告文件,即 A1.kreport。 -
-o A1.bracken.S
: 指定输出文件的名称为 A1.bracken.S,该文件包含了物种丰度的估计结果。 -
-w A1.bracken.S.kreport
: 指定输出详细报告文件的名称为 A1.bracken.S.kreport,该文件包含了对每个分类水平的物种丰度估计结果。 -
-l S
: 指定要进行物种丰度估计的分类水平为 species level(物种水平)。 -
-t 15
: 指定使用的线程数为 15,即并行处理的线程数。
这就是karken2和bracken最基础的应用了,想要结果更好,还需向深处探索。
我推荐文章《Metagenome analysis using the Kraken software suite》
《Kraken: ultrafast metagenomic sequence classification using exact alignments》