rsem比对_一个初学者的LncRNA分析之路(一) - 生物信息学讨论版 -丁香园论坛

时间:2024-12-16 07:07:51

最近在做LncRNA分析流程,大致分析要点如下:

1,已知转录本的表达定量,差异分析:

1.1利用RSEM以Ensembl的参考基因组序列及gtf注释文件为参考,计算样品中所有已知RNA的表达;

以小鼠为例 参考基因组序列下载方法如下(shell脚本):

for i in $(seq 1 19) X Y MT;

do echo $i;

done

gunzip *.gz

for i in $(seq 1 19) X Y MT;

do cat Mus_musculus..${i}.fa >> ;

done

rm -fr *.fa

1.3分析完成后,根据gtf文件中“gene_type”信息注释表达结果

1.4 KEGG,GO,GSEA富集分析

2.利用HISAT2进行比对

2.1 hisat2-build建立索引

2.2 hisat2比对

3.利用cufflinks进行转录本组装,并筛选候选新转录本

3.1 cufflinks组装得到每个样品的转录本组装结果

3.2 组装结果过滤,过滤参数如下:

1)FPKM>=0.5

2)Coverage>3

3)Length>200

3.3 利用cuffmerge将所有样品过滤之后的转录本合并:

ls * > #将过滤后的“”输入到merge列表文件中

cuffmerge -o merged -g Mus_musculus.GRCm38. -s -p 16

#cuffmerge合并每个样本过滤之后转录本的同时与参考序列gtf比较重新构建新转录本

3.4 筛选候选的novel transcript:

用perl或者其他脚本语言筛选中class_code为“i,j,u,x,o”的转录本作为候选的新转录本

3.5 编码能力预测以鉴别novel mRNA和lncRNA:

分别用CPC,CNCI,PfamScan三个软件来对novel transcript序列做编码能力预测

我们选取主流的三个预测软件官网:

鉴定标准如下:

CPC_threshold = 0,大于0的转录本为mRNA,小于0的为lncRNA

CNCI_threshold = 0,大于0的转录本为mRNA,小于0的为lncRNA

PfamScan:比对上Pfam蛋白数据库的为mRNA,没有比对上的为lncRNA

注意:1)cpc和PfamScan(  /bbs/thread/36426921#36426921  我之前写过用法)需要先建立蛋白参考数据库,cpc可以下载Uniprot/swissprot蛋白序列

2)PfamScan输入的是蛋白序列,可以由cpc的预测结果得出。

预测完成之后选取三个软件的交集转录本作为novel coding和noncoding转录本

4. 用RSEM对novel transcript定量和差异分析

5. 靶基因预测待续。。。