一、GDCRNATools包下载
首先下载R包
if (!requireNamespace("BiocManager", quietly = TRUE))
("BiocManager")
BiocManager::install("GDCRNATools")
下载好之后在再官网下载gdc-client工具和manifest文件到当前目录下,具体操作可以看我再丁香园中的帖子
运行,以COAD数据为例,下载:
library("GDCRNATools")
gdcRNADownload(manifest = 'gdc_manifest_20200320_030436.txt',
directory = 'TCGA-COAD/RNAseq')
但是等了好久发现下载速度实在太慢了,于是就放弃了这种方法,换下一种方法下载。
二、RTCGA包下载
在很久以前下载过这个包,所以直接运行它,安装可以参考这篇文章:安装
library()
dim()
library()
expr <- expressionsTCGA()
然后很快就得到了表达矩阵,但是我们发现列名并不是我们熟悉的gene symbol, 那么就需要转换。
首先把列明提取出来
idlist<-colnames(expr)
idlist<-(idlist)
(idlist,file="")
##用excel把list中的ID按照竖线分开,前面的就是gene symbol拉
##也可以用string包来搞
list<-(file="")
竖线后面的entrez的ID也可以通过DAVID网站转换,详见教程。
list<-(file="")
exprdata<-expr
expr[1:5,1:5]
colnames(exprdata)<-list$idlist
exprdata<-t(exprdata)
(exprdata,file="")
##至此表达矩阵就下载好啦
接下来我们下载临床数据
library()
meta <- #得到临床信息
tmp=(colnames(meta))#得到列名的矩阵
(meta,file="")
##临床数据也下载好啦
三、数据整合
将某个基因的表达量提取出来,与临床信息整合在一起。
四、绘制表达差异图
grapad绘图
参考资料:
1、GDCRNATools一个TCGA数据分析的全能选手
2、TCGA数据下载和整理工具----GDCRNATools
3、GDCRNATools的安装与使用---TCGA数据下载与分析工具(英文版)
4、bioconduct说明
5、TCGA数据下载网址:GDC
6、手把手教你用R语言下载TCGA数据库:GDCRNAtools(丁香园)
7、TCGA数据挖掘一:下载数据并提取临床及表达矩阵信息:RTCGA包