前两天我们对GEO数据库来了一个大致的介绍。我们对于目标数据集,我们做的第一个事情就是差异分析,来寻找有差异的结果。所有的表达芯片做的差异表达分析都是基于limma的算法来的。我们今天介绍的这个GEO2R也只是把这个算法更加方便使用了而已。
PS:GEO2R只是适用于表达谱芯片。对于二代测序是不适用的,我们下面说到的数据类型都是表达谱芯片来进行阐述的。
1 所谓差异分析
我们在进行科学研究的时候,同样也是需要比较才能得到结果的。通常我们研究一个疾病的时候,其实都会有一个隐藏的目标伴随着来进行研究的。例如我们要研究TP53是否和胃癌的发生相关,那我们收集的数据除了胃癌患者当中的TP53的基因表达水平,也要收集正常对照人群的表达变化,通过两者的对比来确定TP53的表达变化是否和胃癌有关。
对于表达谱芯片而言,我们会得到上万的基因的表达量变化,但是这上万的基因不一定都参与疾病的发生。我们进行差异分析的目的也是要得到和疾病相关的那些变化基因。毕竟这些基因才是符合我们研究目的的。
2 GEO2R
GEO2R就是一个基于GEO数据库来对表达谱芯片进行差异分析的一个软件。我们在每个数据集的下面都可以看到这个软件的的入口。例如:GSE79973我们就可以在数据集的下面看到这个分析入口。
软件的整体操作还是很简单的,我们需要做的就是
2.1 制定数据分组
前面提到,我们需要两组或者多组之间比较才能得到差异的结果,所以我们第一步需要做的就是来制定我们想要的分组。这里我们可以基于自己想要的分组名称来填写即可。
需要注意的是,如果是两组的话,我们要先选择对照组;再选择处理组。如果这里输入反了,就导致我们结果是反的。
2.2 选择相对应的样本
在制定好分组之后,我们需要在所有数据样本当中来符合我们分组的样本。我们可以通过点击某一个列名来进行排序。
2.3 进行差异表达分析
我们把界面往下拉,有一个TOP250/Save All Results的地方。这个地方就是我们用来查看结果的地方。
- TOP250,可以查看所有差异结果当中,前250的基因。
在这个结果当中,包括了:芯片当中探针ID号、差异分析的P值和logFC值,以及相对应的基因名。我们点击ID下面每一个探针前面的▶️,就可以看到这个数据集里面相对应的样本在不同分组的表达量变化了。
具体结果的筛选标准我们后面再说。
- Save All Results 则会弹出另外一个界面。这里面包括芯片当中作用的数据的差异表达结果。每一列的内容和之前的TOP250是一样的
如果我们需要保存所有的结果。那么全选—复制—打开excel—粘贴即可。
3 结果解读
通过以上的过程,我们就得到了这个数据集所有差异 表达的结果。但是所有的结果,并不是都有意义的结果,所以我们要进行一定的筛选。目前对于差异的筛选结果,其实并没有一个严格意义上的标准。但是都有一个默认的最低标准:那就是logFC的绝对值 > 1. 且 矫正P值() < 0.05。
关于logFC
logFC,全称是log2 foldchange。foldchange可以代表变化倍数,如果处理组的表达均值是8;对照组的表达均值是2,那么foldchange就是4。而log2 fold change就是2。所以我们默认的logFC > 1,则代表两组之前差异在2倍以上的为有意义。
logFC的绝对值, 由于相较于对照组,基因的变化并不一定是升高的。也有降低的。所以logFC会有一个方向性,如果为 负 则代表,相较于对照组是低表达的,如果为 正 则代表是高表达。
由于表达是有方向性的,所以再次抢到在输入分组命名的时候先输入对照组的名字。不然的话,按照系统的分析方法,我们得到的结果有可能方向就完全是相反的了。