本系列文章旨在记录一下个人(小白)在最初学习RNA-seq的过程中遇到的一些问题,以及解决问题的坎坷之路,希望可以帮到遇到同样问题的小白们~ // 非专业,有些部分理解尚浅,留情
个人常用NCBI官方提供的sratoolkit工具/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit进行sra数据的读取、下载。个人使用的是学校实验室Linux集群,各大生信主流软件均已配备齐全,软件下载安装问题暂且略过~
测序数据准备
本文以现有网络转录组专题中的经典案例文献“AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors”为例,根据文献数据存储部分可知文章中所用RNA测序数据存储地址在GEO数据库(/geo/),ID为GSE81916
首先进入GEO数据库官网,搜索框搜索数据存储ID(GSE81916)查看数据详细属性(Overall design),可知当前ID包含存有15份数据,其中Sample 9-15为我们所需要的mRNA测序数据,因此只需下载此部分数据。
根据信息,勾选需下载的数据,输出txt文件(文件名),该文件内容实际为相关测序数据的SRR编号。
准备好SRR编号信息之后,将txt文件传输至工作路径下(个人常用第三方ftp软件传输,如Filezilla),然后便可进行数据下载
module load sratoolkit/3.0.0 #实module工具加载sra软件
#prefetch工具下载单个数据时,SRR3589956为例
prefeth SRR3589956 -O output #output为数据输出路径,不做更改将在
当前工作路径下自动创建一个名为output的文件夹
##若需要批量下载多个数据时,如本文案例需下载7个数据,运行以下代码即可
prefetch -O output --option-file ##即为此前下载的SRR编号文件
##等待片刻,数据就下载完成啦~
以下是代码实际运行展示: