上传RNA-seq数据到NCBI GEO数据库

SRA - NCBI

example - NCBI

要发文章了，审稿时编辑肯定会要求你上传NGS测序数据。

一般数据都是放在集群，不可能放在个人电脑上，因为有的数据大的吓人（几个T）。

所以我们就建一个文件夹，然后把所有需要的fastq文件链接到这个文件夹就行了（copy太慢，也太占空间）。

接下来，如何NCBI账号申请好了，那就可以直接上传了，用aspera来上传。

命令如下：

~/.aspera/connect/bin/ascp -i ~/download/ -QT -l10000m -k1 -d WGS_BACE2_paper* subasp@:uploads/zxli@gmail.com_nYYKcqx0/RNAseq

参考：　

原始数据极速上传NCBI SRA教程 - 比较全面，基本照着做就好了

使用Aspera从EBI或NCBI下载基因组数据 - 补充aspera的使用方法　

Tutorial: How to upload your data to the evil Sequence Read Archive (SRA)? - 英文版的，写的比较规范

你需要下载的是一个叫aspera connect的软件，aspera系列软件太多，别下错了。

这个奇葩的软件必须要到Linux浏览器里才能有下载链接出现，所以你得有一个Ubuntu系统。下载好了之后再传到集群上。

注意有个密钥（-i 选项）需要从ncbi上下载，最终上传页面上有。

NCBI上传数据到SRA，一切都比较顺利，只是需要你自己收集一些信息，填一些表。

但是我却遇到了一个天大的问题，直接花费了了我一晚上来解决，所以一定要耐心的看NCBi的错误提示啊。

Your table upload failed because multiple BioSamples cannot have identical attributes

就是在你填样品表时，除了一些必备列之外，其他列的信息不能完全一样！！！

所以我最终的解决方案就是，把样品名（肯定不一样）copy到某一列；或者直接在某一列填1累加的数字，防止重复。

如果你不好好看报错的话，真的是不知道这一步到底错在哪里。而且大部分老师的样品就是样品名不同，其他的信息都一样，所以看网上求助的人还是很多的，百度基本没有正确的答案。

秒客网