转录本定量(二代、三代)——salmon、stringtie

时间:2024-02-25 21:09:07

基于前人的研究,我们已经总结出非常多的二代测序基因定量的方法。

gene-level:DESeq2、TMM、edgeR、limma、etc。但是转录本定量在目前二代测序的短reads上是很难实现的。

isoform level:DRIMseq、Salmon、Stringtie、Cufflinks、 eXpress 、 Kallisto、Taco、Scallope、Rsem、WemIQ 、 Salmon 、iReckon、甚至包括CLIIQ 、MITIE、FlipFlop、MISO、alpine、iReckon 、NSMAP、MSIQ、rQuant、SLIDE 、IsoLasso、CIDANE、Trinity 、Scripture 、IsoLasso。

exon level:MISO、rMATs、DiffSplice、SpliceTrap、ASMs、DEXSeq

《Modeling and analysis of RNA-seq data: a review from a statistical perspective》

——Wei Vivian Li1 and Jingyi Jessica Li1,2,*

 

一个博士生完成的文章,总结清晰全面到位,是我们学习的榜样。

 几种level 的RNAseq 数据分析demo:

Sample size对统计效力的影响: 

Isoform层面的参数估计和统计推断:

上公式:

一般reads分布的统计学模型描述:

DGE差异分析的检验假设:

 

基因共表达网络的拓扑结构:

(TOM matrix in WGCNA中常用)Transcriptome Similarity, the similarity measure can be calculated based on the correlation coefficients, the TROM measure, or the mutual information measures, depending on the type of gene co-expression relationships of interest in the analysis.

We denote the gene expression matrix as Xnj,这里的Xnj是行名为sample names列名为genename的基因表达矩阵,N nodes,J edges。

Ann,是对称联合矩阵,Aij是从genei到j的相似性得分(0-1),

Tij描述的就是overlap网络矩阵的相似性,1-Ti即为网络矩阵之间的不相似性。

为了保证芯片信息的充分利用,文章的作者提出了计算另一矩阵——topological overlap matrix(TOM)来衡量两个基因的相关性。建立这一矩阵的思想在于,任何两个基因的相关性不仅仅由他们的表达相似性直接决定,它还将A基因通过B基因与C基因的作用相关性纳入AC基因的TOM矩阵值中,以更精确地描述基因表达谱的类似性。

 
网络的数学名称是图,在图论中对于每一个节点有一个重要概念,即:度。一个点的度是指图中该点所关联的边数。如下图,如果不加以思考,人们很容易认为生活中常见的网络会是一种random network,即每一个节点的度相对平均。然而第二种图,即scale-free network才是一种更稳定的选择。Scale-free network具有这样的特点,即存在少数节点具有明显高于一般点的度,这些点被称为hub。由少数hub与其它节点关联,最终构成整个网络。这样的网络的节点度数与具有该度数的节点个数间服从power distribution。这为我们寻找最佳参数提供了理论依据。 这里做一点扩展,我认为时非常有必要的。只要我们愿意抽象,Scale-free network大量存在于的生活中。人们的社交网络、生物基因蛋白质的相互作用、计算机网络甚至sexually transmitted diseases均有这层关系。生物体选择scale-free network而不是random network是有它进化上的原因的,显然对于scale-free network,少数关键基因执行着主要功能,这种网络具有非常好的鲁棒性,即只要保证hub的完整性,整个生命体系的基本活动在一定刺激影响下将不会受到太大影响,而random network若受到外界刺激,其受到的伤害程度将直接与刺激强度成正比。

 

链接:https://www.jianshu.com/p/a2790dc1f010

 

 isoform的分数服从随机分布的isoform的概率

对转录本定量的最大似然模型: 

联合概率密度分布: 

带罚项的最小二乘法:

PSI calculation:

reads的等级模型:

伯努利二分类模型以及logit的正态分布。