somatic mutation体细胞变异检测文献分享--转载

时间:2024-03-09 18:13:27

转载 :http://blog.sina.com.cn/s/blog_83f77c940102xuro.html

Kalatskaya I, Trinh Q M, Spears M, et al. ISOWN: accurate somatic mutation identification in the absence of normal tissue controls[J]. Genome Medicine, 2017, 9(1):59.
 
变异检测可以分为三类:
single nucleotide variant (SNV), insertion and deletion (indel), and structural variant (SV, including copy number variation, duplication, translocation, etc.)典型的SNV和小的indel一般小等于10bp
 
比对:
Illumina(BWA)、TMAP (for Ion Torrent reads) for DNA reads
splice-aware aligners such as TopHat and STAR for RNA sequencing
 
关于在比对之前是否要做数据质控的问题,在这里做数据质控也只是去掉接头序列。因为很多变异检测的软件都是基于位点的检测策略,所以整条reads的质量情况不是那么重要,另外局部重比对也就是BQSR (base quality score recalibration)。基于PCR扩增的数据不需要在数据比对后去除PCR冗余。
 
tumor-normal变异检测模式
 
基于启发式算法的编译检测算法有VarScan2, qSNP, Shimmer, RADIA, SOAPsnv, and VarDict
加入genotype analysis的分析软件有SomaticSniper, FaSD- somatic, SAMtools, JointSNVMix2, Virmid, SNVSniffer, Seurat, and CaVEMan,这些软件一般使用在低覆盖的数据分析中(WGS, WES, or targeted sequencing with low depth),但是对低频突变不敏感
基于Haplotype-based strategy检测策略不需要局部重比对,因为该变异检测方法是基于reads组装后的结果进行编译检测的,这样的软件有Platypus, HapMuC, LocHap, FreeBayes, and MuTect2 。
基于机器学习方法的软件MutationSeq, SomaticSeq, SNooPer, and BAYSIC
 
如果是高测序覆盖深度的低频突变建议使用Strelka, MuTect, LoFreq, EBCall, deepSNV, LoLoPicker, and MuSE,启发式算法的软件对于发现低频突变也有较好的效果(1% variant calling with VarDict) and (< 5% variant calling with VarScan2)
 
Single-sample 变异检测模式
 
SNVMix2, Shearwater, SPLINTER, SNVer, OutLyzer, and Pisces这些软件都可以进行单样本变异检测但是不能区分somatic and germline
ISOWN, SomVarIUS, and SiNVICT可以提供单样本的变异检测但是同时也可同时区分somatic and germline,ISOWN软件是依赖于MuTect2,随后依赖somatic (COSMIC) and germline mutations (ExAC and dbSNP)来做进一步区分,OutLyzer, Pisces, ISOWN, SomVarIUS, SiNVICT已经被应用到靶向测序的应用
 
UMI-based variant calling
一般低频突变定义为((VAF ≤5%) )目标就是排出测序错误Illumina(0.01–0.1 ),目前给予UMI分析的软件有三款: DeepSNVMiner, MAGERI, and smCounter
其中 DeepSNVMiner, MAGERI, and smCounter输入都是原始数据而只有smCounter的输入是BAM格式,基于PGM平台已经有了一个处理UMI的插件TVC。此外还有一个开源的软件Fgbio。Illumina建议DNA输入量30ng 测序层数40000X 中值覆盖度可达到~2500X 敏感性变异检测为:0.4%
 
RNA-seq variant calling
 
基于RNA数据变异检测的软件有RADIA, Seurat, VarDict, VarScan2, SNPiR, and eSNVdetect,但是RADIA and Seurat 需要整合RADIA and Seurat 的DNA数据
 
2014年Genome in a Bottle Consortium简称(GIAB)通过整合多种测序科技和比对分析软件公布了NA12878 cell line 细胞系高质量可信的变异检测结果
Zook J M, Chapman B, Wang J, et al. Integrating human sequence data sets provides a resource of benchmark SNP and indel genotype calls[J]. Nature Biotechnology, 2014, 32(3):246-51.