之前不是很理解这两个概念,看了本文之后就差不多理解了。
我们都知道RNA-seq是通过NGS技术来检测基因表达量的测序方法。在衡量基因表达量方面,若是单纯以比对到参考基因的Reads个数(我们通常称之为Count值)来衡量基因的表达量,在统计上是一件相当不合理的事。今天就为大家介绍一下衡量基因表达量的RPKM和FPKM两种方法。
在随机抽样的情况下,序列较长的基因被抽到的概率本来就会比序列短的基因高,如此一来,序列长的基因永远会被认为表达量较高,而错估基因真正的表达量。在测序深度不同的情况下,测序深度更深的样品中,比对到每个基因的Read数量更多。
为排除因基因的长度、测序深度等因素造成的干扰,RPKM(Reads Per Kilobase Million)和FPKM(Fragments Per Kilobase Million)等方法就应运而生了。
RPKM
RPKM是将Map到基因的Reads数除以Map到Genome的所有Read数(以Million为单位)与RNA的长度(以KB为单位)。
FPKMFPKM是将Map到基因的Fragments数除以Map到Genome的所有Read数(以Million为单位)与RNA的长度(以KB为单位)。
从公式上可以看出,方法是将Reads(Fragments)Count进行标准化,分别是对测序深度标准化(以Million为单位)和对基因长度标准化(以KB为单位),从而消除了因测序深度和基因长度不同对基因表达量的影响。
RPKM与FPKM的区别
FPKM计算的是片段(Fragments),而RPKM计算的是数据(Reads)。Fragment比Read的含义更广,因此FPKM包含的意义也更广,可以是Pair-end的一个Fragment,也可以是一个Read。RPKM的诞生是针对SE测序,FPKM则是在PE测序上对RPKM的校正。
F是fragments,R是reads,如果是pair-end测序,每个fragments会有两个reads,FPKM只计算两个reads能比对到同一个转录本的fragments数量,而RPKM计算的是可以比对到转录本的reads数量(即不管是不是两个reads是不是能比到同一个转录本上)。如果是single-end测序,二者FPKM和RPKM是一致的。
TPM可以用于同一物种不同组织间的比较,因为Sum(TMPs)的值总是唯一的。
然而如果要在不同物种之间比较,则需要利用物种间的同源基因,取top 1000 rank 最保守的同源基因,取median expression levels,来计算scaling factor.