生物信息学中,FPM、TPM、Fold change分别是什么?

时间:2024-10-25 07:33:49

FPM、TPM、Fold change是基因表达分析中常用的统计指标,它们用于表示基因在不同样本中的相对表达水平,以及比较基因在不同条件下的表达差异。以下是它们的详细介绍:

1. FPM (Fragments Per Million)

FPM代表“每百万片段中的片段数”(Fragments Per Million),用于量化RNA测序(RNA-Seq)数据中的基因表达水平。具体来说,它用于对测序深度进行标准化,使得不同样本的表达水平可以互相比较。

  • 计算方法:首先统计一个基因在样本中所获得的测序片段(或读取数),然后将这个数值除以样本总的测序片段数并乘以一百万(标准化到每百万片段)。

  • 目的:通过标准化测序深度,FPM使得不同样本中的基因表达量能够进行横向比较。

2. TPM (Transcripts Per Million)

TPM代表“每百万转录本中的转录本数”(Transcripts Per Million),它也是一种标准化的基因表达量度,在表达量的计算和比较中比FPKM更常用。

  • 计算方法
    1. 计算每个基因在样本中的读取数,并将其除以基因的长度,得到“每单位长度的读取数”(Reads Per Kilobase, RPK)。
    2. 将所有基因的RPK相加,得到样本中所有基因的总RPK值。
    3. 将每个基因的RPK除以样本总RPK值,然后乘以一百万,得到TPM值。
  • TPM与FPKM的不同
    • FPKM(Fragments Per Kilobase of transcript per Million mapped reads)用于标准化基因长度和测序深度,但在不同样本间直接比较时可能存在偏差。
    • TPM改进了FPKM的方法,使得不同样本之间的表达量比较更加一致。计算TPM时,首先标准化基因长度,然后标准化总读取数,因此所有基因的TPM加起来始终为一百万。这意味着TPM更适合直接比较不同样本中的基因表达水平。

3. Fold Change (FC)

Fold change(倍数变化)用于表示基因在两个不同条件(例如疾病状态与健康状态)下的相对表达变化。它是评估基因表达差异最简单、最直观的方式之一。

  • 计算方法

    • 假设在条件A下基因的表达值为X,在条件B下的表达值为Y,Fold change的计算公式为:Fold Change = Y / X
    • 如果Fold change大于1,表示在条件B下基因的表达量上升(如2倍表示表达翻倍);如果Fold change小于1(如0.5),表示基因的表达量在条件B下降低为原来的一半。
  • 取对数变换: 为了便于数据的理解和统计学分析,Fold change通常会取对数变换:

    • Log2 Fold Change:使用对数基底为2,例如Log2 Fold Change等于1时,表示表达量增加2倍;Log2 Fold Change等于-1时,表示表达量减半。
    • 对数变换的好处是能够直观地显示表达量增加和减少之间的对称性。

总结

  • FPMTPM是用于量化基因表达水平的标准化方法,使得不同基因或样本之间的表达量具有可比性。TPM比FPM更适合跨样本间的比较。
  • Fold Change用于评估基因在两个不同条件下的相对表达差异,是基因表达差异分析中最常用的度量之一。

这些指标对于RNA-Seq数据的分析非常重要,有助于揭示基因在不同组织、细胞类型或生理状态下的表达情况,从而帮助理解基因的功能和生物学意义。