SRA - NCBI
example - NCBI
要发文章了,审稿时编辑肯定会要求你上传NGS测序数据。
一般数据都是放在集群,不可能放在个人电脑上,因为有的数据大的吓人(几个T)。
所以我们就建一个文件夹,然后把所有需要的fastq文件链接到这个文件夹就行了(copy太慢,也太占空间)。
接下来,如何NCBI账号申请好了,那就可以直接上传了,用aspera来上传。
命令如下:
~/.aspera/connect/bin/ascp -i ~/download/ -QT -l10000m -k1 -d WGS_BACE2_paper* subasp@:uploads/zxli@gmail.com_nYYKcqx0/RNAseq
参考:
原始数据极速上传NCBI SRA教程 - 比较全面,基本照着做就好了
使用Aspera从EBI或NCBI下载基因组数据 - 补充aspera的使用方法
Tutorial: How to upload your data to the evil Sequence Read Archive (SRA)? - 英文版的,写的比较规范
你需要下载的是一个叫aspera connect的软件,aspera系列软件太多,别下错了。
这个奇葩的软件必须要到Linux浏览器里才能有下载链接出现,所以你得有一个Ubuntu系统。下载好了之后再传到集群上。
注意有个密钥(-i 选项)需要从ncbi上下载,最终上传页面上有。
NCBI上传数据到SRA,一切都比较顺利,只是需要你自己收集一些信息,填一些表。
但是我却遇到了一个天大的问题,直接花费了了我一晚上来解决,所以一定要耐心的看NCBi的错误提示啊。
Your table upload failed because multiple BioSamples cannot have identical attributes
就是在你填样品表时,除了一些必备列之外,其他列的信息不能完全一样!!!
所以我最终的解决方案就是,把样品名(肯定不一样)copy到某一列;或者直接在某一列填1累加的数字,防止重复。
如果你不好好看报错的话,真的是不知道这一步到底错在哪里。而且大部分老师的样品就是样品名不同,其他的信息都一样,所以看网上求助的人还是很多的,百度基本没有正确的答案。