【文件属性】:
文件名称:glow:一个用于大规模基因组分析的开源工具包
文件大小:47.2MB
文件格式:ZIP
更新时间:2021-03-09 02:20:29
machine-learning spark genomics delta Scala
一个用于大规模基因组分析的开源工具包 ··
Glow是一个开放源代码工具包,用于在生物银行规模甚至更大范围内实现生物信息学。
易于上手
该工具包包括您立即执行最常见分析所需的构建基块:
将VCF,BGEN和Plink文件加载到分布式DataFrame中
使用内置功能执行质量控制和数据处理
变体归一化和liftOver
进行全基因组关联研究
与Spark ML库集成以进行人口分层
并行化命令行工具以扩展现有工作流程
按比例建造
Glow使基因组数据与Spark协同工作,Spark是处理大型结构化数据集的领先引擎。 它本身适合工具生态系统,使成千上万的组织可以将其工作流扩展到PB级数据。 发光弥补了生物信息学与Spark生态系统之间的鸿沟。
灵活的
Glow可以使用通用文件格式(例如VCF,BGEN和Plink)以及高性能大数据标准的数据集。 您可以使用Python,SQL,R,Java