基于前人的研究,我们已经总结出非常多的二代测序基因定量的方法。
gene-level:DESeq2、TMM、edgeR、limma、etc。但是转录本定量在目前二代测序的短reads上是很难实现的。
isoform level:DRIMseq、Salmon、Stringtie、Cufflinks、 eXpress 、 Kallisto、Taco、Scallope、Rsem、WemIQ 、 Salmon 、iReckon、甚至包括CLIIQ 、MITIE、FlipFlop、MISO、alpine、iReckon 、NSMAP、MSIQ、rQuant、SLIDE 、IsoLasso、CIDANE、Trinity 、Scripture 、IsoLasso。
exon level:MISO、rMATs、DiffSplice、SpliceTrap、ASMs、DEXSeq
《Modeling and analysis of RNA-seq data: a review from a statistical perspective》
——Wei Vivian Li1 and Jingyi Jessica Li1,2,*
一个博士生完成的文章,总结清晰全面到位,是我们学习的榜样。
几种level 的RNAseq 数据分析demo:
Sample size对统计效力的影响:
Isoform层面的参数估计和统计推断:
上公式:
一般reads分布的统计学模型描述:
DGE差异分析的检验假设:
基因共表达网络的拓扑结构:
(TOM matrix in WGCNA中常用)Transcriptome Similarity, the similarity measure can be calculated based on the correlation coefficients, the TROM measure, or the mutual information measures, depending on the type of gene co-expression relationships of interest in the analysis.
We denote the gene expression matrix as Xnj,这里的Xnj是行名为sample names列名为genename的基因表达矩阵,N nodes,J edges。
Ann,是对称联合矩阵,Aij是从genei到j的相似性得分(0-1),
Tij描述的就是overlap网络矩阵的相似性,1-Ti即为网络矩阵之间的不相似性。
为了保证芯片信息的充分利用,文章的作者提出了计算另一矩阵——topological overlap matrix(TOM)来衡量两个基因的相关性。建立这一矩阵的思想在于,任何两个基因的相关性不仅仅由他们的表达相似性直接决定,它还将A基因通过B基因与C基因的作用相关性纳入AC基因的TOM矩阵值中,以更精确地描述基因表达谱的类似性。
链接:https://www.jianshu.com/p/a2790dc1f010
isoform的分数服从随机分布的isoform的概率
对转录本定量的最大似然模型:
联合概率密度分布:
带罚项的最小二乘法:
PSI calculation:
reads的等级模型:
伯努利二分类模型以及logit的正态分布。