最近在做LncRNA分析流程,大致分析要点如下:
1,已知转录本的表达定量,差异分析:
1.1利用RSEM以Ensembl的参考基因组序列及gtf注释文件为参考,计算样品中所有已知RNA的表达;
以小鼠为例 参考基因组序列下载方法如下(shell脚本):
for i in $(seq 1 19) X Y MT;
do echo $i;
done
gunzip *.gz
for i in $(seq 1 19) X Y MT;
do cat Mus_musculus..${i}.fa >> ;
done
rm -fr *.fa
1.3分析完成后,根据gtf文件中“gene_type”信息注释表达结果
1.4 KEGG,GO,GSEA富集分析
2.利用HISAT2进行比对
2.1 hisat2-build建立索引
2.2 hisat2比对
3.利用cufflinks进行转录本组装,并筛选候选新转录本
3.1 cufflinks组装得到每个样品的转录本组装结果
3.2 组装结果过滤,过滤参数如下:
1)FPKM>=0.5
2)Coverage>3
3)Length>200
3.3 利用cuffmerge将所有样品过滤之后的转录本合并:
ls * > #将过滤后的“”输入到merge列表文件中
cuffmerge -o merged -g Mus_musculus.GRCm38. -s -p 16
#cuffmerge合并每个样本过滤之后转录本的同时与参考序列gtf比较重新构建新转录本
3.4 筛选候选的novel transcript:
用perl或者其他脚本语言筛选中class_code为“i,j,u,x,o”的转录本作为候选的新转录本
3.5 编码能力预测以鉴别novel mRNA和lncRNA:
分别用CPC,CNCI,PfamScan三个软件来对novel transcript序列做编码能力预测
我们选取主流的三个预测软件官网:
鉴定标准如下:
CPC_threshold = 0,大于0的转录本为mRNA,小于0的为lncRNA
CNCI_threshold = 0,大于0的转录本为mRNA,小于0的为lncRNA
PfamScan:比对上Pfam蛋白数据库的为mRNA,没有比对上的为lncRNA
注意:1)cpc和PfamScan( /bbs/thread/36426921#36426921 我之前写过用法)需要先建立蛋白参考数据库,cpc可以下载Uniprot/swissprot蛋白序列
2)PfamScan输入的是蛋白序列,可以由cpc的预测结果得出。
预测完成之后选取三个软件的交集转录本作为novel coding和noncoding转录本
4. 用RSEM对novel transcript定量和差异分析
5. 靶基因预测待续。。。