1、蛋白质芯片查找
GEO网站:https://www.ncbi.nlm.nih.gov/gds
检索词:Pancreatic cancer;Protein profiling by protein array
我们可以看到搜索结果为11个,选择第一个数据GSE29676作为分析的数据集;该数据集共609个样本,平台为13669,点击Analyze with GEO2R发送到GEO2R进行数据的初步分析。
2、GEO2R进行初步分析
2.1、根据disease将数据分成两组
根据实际情况,将实验对象选定为帕金森组和控制组(老年组);点击top250开始分析。
组别分类前
组别分类后
点击top250后开始分析
2.2、获取分析结果 并保存相关的矩阵,做进一步分析
获取选中的149个样本(29个胰腺癌、120个老年控制组),可观察到校正后的p值、p值。每一条记录可点击展开,每个样本该蛋白质的表达量可通过条形图的高低展示出来;数据共有9481条,自动化筛选出的差异表达蛋白有限但是可用于大致的观察;点击save all results另存为可以下载所有处理后的数据;利用R语言做后续的处理;可点击view distribution观察样本的分布情况。
GEO2R的展示结果
下载后的数据截图
此处为样本表达含量的boxplot图
2.3、利用R语言提取差异表达的蛋白质的ID号
保存后的处理文件为geo2r.txt,利用R语言提取所有的gene ID号。我们可以观察到geo2r是随着行数的增多,差异性是越来越小的。取前100行为我们的差异表达基因。
R语言代码:
data<-read.table("geo2r.txt",header=T)
takeLine<-seq(1,100)
geneId<-data$ID[takeLine]
write.table(geneId,"differe.txt",col.names=F,row.names=F)
处理结果:
3、kegg和go分析
将提取出的id数据放到go网站上,做biological process分析,可以观察到gene主要集中在regulation of biological quality,biological process和 cellular compont分析可以明显的观察到数据和神经的信号传到相关。
biological process分析结果
cellular compont分析