文件名称:eggo:即用型镶木地板格式的公共组学数据集
文件大小:42KB
文件格式:ZIP
更新时间:2024-05-18 06:44:05
Python
eggo Eggo有两件事: CLI,可使用Cloudera Director轻松置备功能齐全的Hadoop群集(CDH) S3中的一组Parquet格式的公共'组学数据集,可轻松在Hadoop堆栈(包括Spark和Impala)上执行集成基因组学。 Eggo包含用于处理数据的所有脚本,包括必要的DDL语句,以在Hive Metastore中注册数据集并使Hive / Impala可以访问它们。 目前,Eggo专为扩大变体商店和相关功能(例如种群基因组学,临床基因组学)而设计 预先转换的数据集托管在公共可用的S3存储桶中: s3://bdg-eggo 有关可用数据集的列表(请参阅符合元数据),请参见datasets/目录。 入门 pip install git+https://github.com/bigdatagenomics/eggo.git Eggo利用 , 和 。 eg
【文件预览】:
eggo-master
----setup.py(2KB)
----.gitignore(709B)
----datasets()
--------1kg-genotypes()
--------dbsnp()
----MANIFEST.in(175B)
----LICENSE.txt(11KB)
----scripts()
--------aws-hadoop-conf.py(6KB)
--------ensure-ec2-cleanup.py(1KB)
----README.md(6KB)
----eggo()
--------compat.py(1KB)
--------__init__.py(771B)
--------cli()
--------resources()
--------error.py(845B)
--------config.py(1KB)
--------operations.py(6KB)
--------director.py(21KB)
--------util.py(5KB)
--------aws.py(5KB)
----docs()
--------spec.md(7KB)