为什么WES的数据无法使用VQSR进行变异质控?
其实不只是WES,还包括很多小panel的数据,如果样本量比较少的话基本都无法使用VQSR进行变异的质控。其原因就在VQSR的原理上。
VQSR的核心原理是利用机器学习算法构造一个区分“好”变异和“坏”变异的分类器。这个分类器在GATK中是通过GMM模型来构造的,它在构造的时候并不是盲目地使用所有数据来进行构造,而是挑出和已知的变异集合Overlap的位点(通常是HapMap数据集)——并分配相应的可信度权重来进行训练。
基于群体遗传的原理,这些已知且被严格验证的变异(如HapMap数据)会被认为是更加靠谱的变异,因此在初始化的时候先把它们当作是“好”的——也就是正确的变异。这个初始变异集很重要,然后利用这些好变异训练一个区分好变异的GMM,接着对全部数据进行打分,再把评分最低的那些拿出来,构成一个最不像正确变异的集合,用来构造一个区分坏变异的GMM,用来专门识别坏变异。最后同时用好和坏的GMM再一次同时对变异进行打分,看每个变异更像谁,就能够评判出这个变异可信的质量值了。越靠近好的GMM,质量就越高,这就是VQSR过滤的大致原理(如下图)。
为了得到理想好的结果,VQSR在进行模型训练的时候就有一个最低可用位点数目的要求——通常是好和坏变异可供训练的数目必须超过5000个,如果Overlap位点太少,是无法用于训练一个合适的模型的,这对于全基因组来说是没任何问题的,但外显子区域加起来也就差不多50Mb左右,长度不大,单个样本里面包含的变异数目大约30K-40K。这些位点本来就不多,它们和已知高质量变异集Overlap的就更少了,最终就导致达不到模型训练的最低要求。所以单个样本的WES(或者样本数量较少的WES)都无法使用VQSR进行质控,小Panel的测序数据也是同理。
但随着样本数目的增加,群体中会有更多的变异也在这些外显子区域中被发现,从而增大了这个可用的训练集合,直到满足了最低训练要求,按照经验,通常是30个样本(随着捕获区域的差别,会略有差异),这也是为什么对于WES数据而言,GATK会提到至少需要30个样本才能进行VQSR的原因。