基因表达量表示方法 RPKM VS FPKM VS TPM

之前不是很理解这两个概念，看了本文之后就差不多理解了。

转自：安诺基因

我们都知道RNA-seq是通过NGS技术来检测基因表达量的测序方法。在衡量基因表达量方面，若是单纯以比对到参考基因的Reads个数（我们通常称之为Count值）来衡量基因的表达量，在统计上是一件相当不合理的事。今天就为大家介绍一下衡量基因表达量的RPKM和FPKM两种方法。

在随机抽样的情况下，序列较长的基因被抽到的概率本来就会比序列短的基因高，如此一来，序列长的基因永远会被认为表达量较高，而错估基因真正的表达量。在测序深度不同的情况下，测序深度更深的样品中，比对到每个基因的Read数量更多。

为排除因基因的长度、测序深度等因素造成的干扰，RPKM（Reads Per Kilobase Million）和FPKM（Fragments Per Kilobase Million）等方法就应运而生了。

RPKM

RPKM是将Map到基因的Reads数除以Map到Genome的所有Read数(以Million为单位)与RNA的长度(以KB为单位)。

FPKMFPKM是将Map到基因的Fragments数除以Map到Genome的所有Read数(以Million为单位)与RNA的长度(以KB为单位)。

从公式上可以看出，方法是将Reads（Fragments）Count进行标准化，分别是对测序深度标准化（以Million为单位）和对基因长度标准化（以KB为单位），从而消除了因测序深度和基因长度不同对基因表达量的影响。

RPKM与FPKM的区别

FPKM计算的是片段(Fragments)，而RPKM计算的是数据(Reads)。Fragment比Read的含义更广，因此FPKM包含的意义也更广，可以是Pair-end的一个Fragment，也可以是一个Read。RPKM的诞生是针对SE测序，FPKM则是在PE测序上对RPKM的校正。

F是fragments，R是reads，如果是pair-end测序，每个fragments会有两个reads，FPKM只计算两个reads能比对到同一个转录本的fragments数量，而RPKM计算的是可以比对到转录本的reads数量（即不管是不是两个reads是不是能比到同一个转录本上）。如果是single-end测序，二者FPKM和RPKM是一致的。

TPM可以用于同一物种不同组织间的比较，因为Sum(TMPs)的值总是唯一的。
然而如果要在不同物种之间比较，则需要利用物种间的同源基因，取top 1000 rank 最保守的同源基因，取median expression levels，来计算scaling factor.

秒客网

基因表达量表示方法 RPKM VS FPKM VS TPM

相关文章