前期学习了通过文章获取了RNA测序数据,具体参考往期文献RNA-seq复现第1期——文献中mRNA测序数据的获取。值得注意的是,下载测序数据通常是.sra格式文件(如下SRR3589956 - SRR3589962),在做正式分析时用到的为.fastq格式文件,因此正式分析前需将.sra文件转换为.fastq格式文件。
前期疑问:
上一期学习利用prefetch函数(sratoolkit)下载sra数据时,代码提示"pleade run :vdb-config --interactive"。解决方法很简单,按照提示输入命令vdb-config --interactive进行软件配置即可。
输入命令之后界面弹出以下窗口,按提示X即可退出界面,软件即可正常使用
正文
今日内容:
1).sra格式文件转换为.fastq格式文件(fastq-dump 或 fasterq-dump);
2)参考基因组及注释索引文件获取或自建(hisat2-build);
1).sra格式文件转换为.fastq格式文件
运用主流.sra
格式文件处理工具sratoolkit(fastq-dump
)
实现sra
数据向fastq
转换,可通过fastq-dump -h
了解函数相关参数及用法。
简单来说,常用的参数有两类:一类压缩命令--gzip ,
一类结果输出命令--split-files & --split-3
--gzip参数使得
输出gz
格式文件(.
),可大大节省存储空间,由于现在多数主流生信软件均支持.gz
文件输入,不会给后续比对等分析造成影响。
--split
参数现在主要分为2
类:
-
--split-files:
将双端测序分为两份,以_1
和_2
区分,但是对于一方有而一方没有的reads直接丢弃; -
--split-3 :
将双端测序分为两份,以_1
和_2
区分。但对于一方有而一方没有的reads
会单独放在一个文件夹。
默认情况下fastq-dump
不对reads
进行拆分, 当测序方式为双端测序时,则需添加--split-3
参数。
代码部分
ls ./output/ ##output路径下的sra文件序列
less ./output/SRR3589957 #查看文件详细信息
*SRR系列文件为.sra格式文件,内含有2个文件,可知该mRNA测序文件属于双端测序。
##转换单个sra文件时,
fastq-dump --gzip --split-3 SRR3589957
##转换多个序列时(SRR3589956~SRR3589962),可借助循环语句
for id in SRR35899{56..62};
do
fastq-dump --gzip --split-3 ${id}
done
最终得到如下的结果,
sra文件成功转换为fastq文件,且属于典型的双端测序数据~
2)参考基因组及注释索引文件获取或自建
由于现代测序技术多是通过将一段长序列打断成多个短序列完成测序(移步参考基因组与基因注释)。参考基因组,即用于序列比对的参考序列,它可以帮助我们快速定位这些被打断的序列原有位置。
此系列文章数据SRR3589956~SRR3589962
为人类细胞RNA
测序数据,因此需要人类参考基因组及基因注释信息(以hg19
和gencode.
为例)。
方法 1:手动下载
a.在 UCSC
数据库下载 hg19
参考基因组;
????/goldenPath/hg19/bigZips/
b.Gencode
数据库下载基因注释文件????/pub/databases/gencode/Gencode_human/release_41/GRCh37_mapping/gencode.
##下载方式2——wget下载
mkdir Reference && cd Reference
wget https:///goldenPath/hg19/bigZips/
wget https:///pub/databases/gencode/Gencode_human/release_41/GRCh37_mapping/41lift37.
##解压参考基因组及注释文件
tar zxvf ##解压完成后会自动将基因组信息文件放于hg19的文件夹内
gunzip 41lift37.
##拟南芥,参考基因组信息存放在/reference文件夹,根据参考基因组序列构建索引(hisat2-build)
mkdir genome_index && cd genome_index
nohup wget ftp:///pub/plants/release-28/fasta/arabidopsis_thaliana/cdna/Arabidopsis_thaliana.TAIR10.28.cdna.all. &
nohup wget ftp:///pub/plants/release-28/fasta/arabidopsis_thaliana/dna/Arabidopsis_thaliana.TAIR10.28. &
nohup wget ftp:///pub/plants/release-28/gff3/arabidopsis_thaliana/Arabidopsis_thaliana.TAIR10.28.gff3.gz &
nohup wget ftp:///pub/plants/release-28/gtf/arabidopsis_thaliana/Arabidopsis_thaliana.TAIR10.28. &
hisat2-build ./reference/Arabidopsis_thaliana.TAIR10.28. Arabidopsis——tair10 ##生成前缀为Arabidopsis——tair10的多个索引文件
欢迎关注“那个小屋”