TCGA数据库下载及全流程分析(更新中)

时间:2024-11-12 22:52:04

一、GDCRNATools包下载

首先下载R包

if (!requireNamespace("BiocManager", quietly = TRUE))
  ("BiocManager")

BiocManager::install("GDCRNATools")

下载好之后在再官网下载gdc-client工具和manifest文件到当前目录下,具体操作可以看我再丁香园中的帖子

运行,以COAD数据为例,下载:

library("GDCRNATools")
gdcRNADownload(manifest  = 'gdc_manifest_20200320_030436.txt',
               directory = 'TCGA-COAD/RNAseq')

但是等了好久发现下载速度实在太慢了,于是就放弃了这种方法,换下一种方法下载。

二、RTCGA包下载

在很久以前下载过这个包,所以直接运行它,安装可以参考这篇文章:安装

library()
dim()
library() 
expr <- expressionsTCGA()

然后很快就得到了表达矩阵,但是我们发现列名并不是我们熟悉的gene symbol, 那么就需要转换。

首先把列明提取出来

idlist<-colnames(expr)
idlist<-(idlist)
(idlist,file="")
##用excel把list中的ID按照竖线分开,前面的就是gene symbol拉
##也可以用string包来搞
list<-(file="")

竖线后面的entrez的ID也可以通过DAVID网站转换,详见教程

list<-(file="")
exprdata<-expr
expr[1:5,1:5]
colnames(exprdata)<-list$idlist

exprdata<-t(exprdata)
(exprdata,file="")
##至此表达矩阵就下载好啦

接下来我们下载临床数据

library() 
meta <- #得到临床信息
tmp=(colnames(meta))#得到列名的矩阵
(meta,file="")
##临床数据也下载好啦

三、数据整合

将某个基因的表达量提取出来,与临床信息整合在一起。

四、绘制表达差异图

grapad绘图

参考资料:

1、GDCRNATools一个TCGA数据分析的全能选手

2、TCGA数据下载和整理工具----GDCRNATools

3、GDCRNATools的安装与使用---TCGA数据下载与分析工具(英文版)

4、bioconduct说明

5、TCGA数据下载网址:GDC

6、手把手教你用R语言下载TCGA数据库:GDCRNAtools(丁香园)

7、TCGA数据挖掘一:下载数据并提取临床及表达矩阵信息:RTCGA包