文件名称:quince:可扩展的基因组变体存储和分析
文件大小:56KB
文件格式:ZIP
更新时间:2024-05-21 20:48:43
Java
桲 可扩展的基因组变体存储和分析 先决条件 您将需要一个Hadoop集群。 这些说明假定使用CDH5.4.x。 建筑物木瓜 通过键入构建木瓜 mvn package 获取数据 Quince可以从VCF文件或使用生成的GA4GH Avro格式的文件中加载变体数据。 您可以将自己的VCF数据加载到HDFS上的datasets / variants_vcf目录中,也可以使用此存储库中提供的测试数据,如下所示: hadoop fs -mkdir datasets hadoop fs -put datasets/variants_vcf datasets/variants_vcf 负载变体工具 LoadVariantsTool将变量数据加载到HDFS中,并以Parquet格式存储,将其展平以使其适合Impala查询。 它还对数据进行分区,以便可以按位置或样本有效地查询数据。 如下运行: h
【文件预览】:
quince-master
----sql()
--------create-variants.sql(2KB)
--------update-variants-partitions.sql(610B)
----src()
--------test()
--------main()
----scripts()
--------download_dbsnp.sh(751B)
--------download_1000_genomes.sh(1KB)
----build-resources()
--------header-file.txt(564B)
--------checkstyle.xml(9KB)
----datasets()
--------variants_vcf()
--------variants_avro()
--------variants_gvcf()
----.travis.yml(92B)
----LICENSE(11KB)
----README.md(10KB)
----pom.xml(8KB)
----.gitignore(100B)