VariantSpark:针对基因组变体的机器学习

时间:2024-02-19 12:23:08
【文件属性】:

文件名称:VariantSpark:针对基因组变体的机器学习

文件大小:41.41MB

文件格式:ZIP

更新时间:2024-02-19 12:23:08

emr aws bioinformatics gwas genome

变形火花 variant-spark是可扩展的工具包,用于针对GWAS之类的数据集优化的全基因组关联研究。 机器学习方法,尤其是随机森林(RF),是全基因组关联研究(GWAS)中标准单SNP分析的有希望的替代方法。 射频(RF)提供了可变重要性度量,可以根据其预测能力对SNP进行排名。 尽管有许多现有的随机森林实现方式可用,有些甚至是并行或分布式的,例如:Random Jungle,Ranger或SparkML,但大多数都没有经过优化以处理GWAS数据集,该数据集通常带有数千个样本和数百万个变量。 目前, variant-spark提供了基本功能,可用于建立随机森林模型和使用均值降低基尼方法估算变量重要性,并且可以在VCF和CSV文件上运行。 未来的扩展将包括对其他重要指标,变量选择方法和数据格式的支持。 variant-spark利用一种新颖的方法从转置表示中的数据构建随机森林,从而使其能够有效处理甚至非常宽的GWAS数据集。 此外,由于最常见的基因组变体调用VCF并使用转置表示,因此变体火花可以直接与VCF数据一起使用,而无需其他工具进行昂贵的预处理。 variant-s


网友评论