文献RNA-seq复现第2期——sra数据转换、参考基因组及注释信息的准备

时间:2024-12-16 07:10:39

前期学习了通过文章获取了RNA测序数据,具体参考往期文献RNA-seq复现第1期——文献中mRNA测序数据的获取。值得注意的是,下载测序数据通常是.sra格式文件(如下SRR3589956 - SRR3589962),在做正式分析时用到的为.fastq格式文件,因此正式分析前需将.sra文件转换为.fastq格式文件。

前期疑问:

上一期学习利用prefetch函数(sratoolkit)下载sra数据时,代码提示"pleade run :vdb-config --interactive"。解决方法很简单,按照提示输入命令vdb-config --interactive进行软件配置即可。

输入命令之后界面弹出以下窗口,按提示X即可退出界面,软件即可正常使用

正文

今日内容:

1).sra格式文件转换为.fastq格式文件(fastq-dump 或 fasterq-dump);

2)参考基因组及注释索引文件获取或自建(hisat2-build);


1).sra格式文件转换为.fastq格式文件

运用主流.sra格式文件处理工具sratoolkit(fastq-dump实现sra数据向fastq转换,可通过fastq-dump -h了解函数相关参数及用法。

简单来说,常用的参数有两类:一类压缩命令--gzip ,一类结果输出命令--split-files & --split-3

--gzip参数使得输出gz格式文件(.),可大大节省存储空间,由于现在多数主流生信软件均支持.gz文件输入,不会给后续比对等分析造成影响。

--split参数现在主要分为2类:

  • --split-files: 将双端测序分为两份,以_1_2区分,但是对于一方有而一方没有的reads直接丢弃;

  • --split-3 : 将双端测序分为两份,以_1_2区分。但对于一方有而一方没有的reads会单独放在一个文件夹。

默认情况下fastq-dump不对reads进行拆分, 当测序方式为双端测序时,则需添加--split-3参数。

代码部分

ls ./output/ ##output路径下的sra文件序列

less ./output/SRR3589957 #查看文件详细信息

*SRR系列文件为.sra格式文件,内含有2个文件,可知该mRNA测序文件属于双端测序。

##转换单个sra文件时,fastq-dump --gzip --split-3 SRR3589957 ##转换多个序列时(SRR3589956~SRR3589962),可借助循环语句for id in SRR35899{56..62};do fastq-dump --gzip --split-3  ${id}done

最终得到如下的结果,

sra文件成功转换为fastq文件,且属于典型的双端测序数据~

2)参考基因组及注释索引文件获取或自建

由于现代测序技术多是通过将一段长序列打断成多个短序列完成测序(移步参考基因组与基因注释)。参考基因组,即用于序列比对的参考序列,它可以帮助我们快速定位这些被打断的序列原有位置。

此系列文章数据SRR3589956~SRR3589962为人类细胞RNA测序数据,因此需要人类参考基因组及基因注释信息(以hg19gencode.为例)。

方法 1:手动下载

a.在  UCSC 数据库下载 hg19 参考基因组;

????/goldenPath/hg19/bigZips/

b.Gencode 数据库下载基因注释文件????/pub/databases/gencode/Gencode_human/release_41/GRCh37_mapping/gencode.

##下载方式2——wget下载mkdir Reference && cd Referencewget https:///goldenPath/hg19/bigZips/wget https:///pub/databases/gencode/Gencode_human/release_41/GRCh37_mapping/41lift37.##解压参考基因组及注释文件tar zxvf ##解压完成后会自动将基因组信息文件放于hg19的文件夹内gunzip 41lift37.​​​##拟南芥,参考基因组信息存放在/reference文件夹,根据参考基因组序列构建索引(hisat2-build)mkdir genome_index && cd genome_indexnohup wget ftp:///pub/plants/release-28/fasta/arabidopsis_thaliana/cdna/Arabidopsis_thaliana.TAIR10.28.cdna.all&nohup wget ftp:///pub/plants/release-28/fasta/arabidopsis_thaliana/dna/Arabidopsis_thaliana.TAIR10.28. &nohup wget  ftp:///pub/plants/release-28/gff3/arabidopsis_thaliana/Arabidopsis_thaliana.TAIR10.28.gff3.gz &nohup wget ftp:///pub/plants/release-28/gtf/arabidopsis_thaliana/Arabidopsis_thaliana.TAIR10.28. &hisat2-build ./reference/Arabidopsis_thaliana.TAIR10.28. Arabidopsis——tair10 ##生成前缀为Arabidopsis——tair10的多个索引文件

 欢迎关注“那个小屋”