文件名称:jgi-ViCA:使用Apache Spark使用大规模机器学习对病毒DNA序列进行分类
文件大小:115.26MB
文件格式:ZIP
更新时间:2024-05-05 23:42:54
JupyterNotebook
威卡 从宏基因组学和元遗传学重叠群中对病毒进行分类 使用深度学习方法的ViCA的更新版本托管在: : 用法 使用此软件包,可以提供一个模型,并使用来自RefSeq基因组的模拟数据进行训练。 如果用户想使用自己的数据自己训练模型,则提供工具。 请参考文档。 进行预测有以下三种用例: 1.大量序列的预测 管道(在NextFlow中),用于使用HPC或Cloud系统预测大量序列 步骤1.使用Nextflow工作流管理进行特征提取 scripts/feature_extraction.nf 第2步。使用Spark对向量进行预测 $SPARK_PATH/bin/spark-submit spark_prediction.py usage: spark_prediction.py [-h] libsvm model scaler outfile 2.对少量序列的预测 可下载的软件包,用于预测在