在对vcf的操作有这样三个软件:
Vcftools:主要用于群体分析,文本处理的功能不是很强大,虽然这个软件也可以拆分样本,但是这种拆分不涉及文件的处理,只是保留在分析流程里。 GATK .x:这个软件最大的问题就是需要参考基因组,而且序列长度各个方面都要与待处理的文件一致这样就给我们的数据处理带来一定的麻烦。 Bcftools:涉及文本的处理,功能很强大,后续随着我的分析还要继续介绍。
利用Bcftools按样本拆分文件主要利用了“--view”这个软件包,主要代码如下:
bcftools view -S 3k_china_indA 3k_SNP_all.vcf -O v -o 3k_china_indA.vcf
这里面三个参数:
-s, --samples [^]<list> comma separated list of samples to include (or exclude with "^" prefix)
-S, --samples-file [^]<file> file of samples to include (or exclude with "^" prefix)
-o, --output-file <file> output file name [stdout]
-O, --output-type <b|u|z|v> b: compressed BCF, u: uncompressed BCF, z: compressed VCF, v: uncompressed VCF [v]
就可以完成了。