文件名称:深入java虚拟机光盘源码-datasink:数据接收器
文件大小:26KB
文件格式:ZIP
更新时间:2024-06-26 18:59:46
系统开源
深入java虚拟机光盘资源datasink:大规模异构集成学习的管道 Datasink 是一个可定制的管道,用于生成异构分类器的不同集合,以及利用集合多样性来提高性能的集合学习方法所需的伴随元数据。 它还公平地评估了几种集成学习方法的性能,包括贪婪选择、增强选择 [Caruana2004] 和堆叠泛化(stacking)[Wolpert1992]。 尽管存在其他工具,但我们不知道为大规模集成学习设计的类似模块化、可扩展的管道。 在西奈山伊坎基因组学和多尺度生物学研究所的支持下,开发 Datasink 是为了支持 Sean Whalen 和 Gaurav Pandey(参见 [Whalen2013])的研究。 Datasink 旨在生成极大的集成(需要数天或数周才能生成),因此包含针对多核和分布式计算环境调整的初始数据生成阶段。 输出是一组压缩的 CSV 文件,其中包含每个分类器生成的类分布,用作稍后集成学习阶段的输入。 数据由围绕基于 Java 的 Weka 机器学习包 [Hall2009] 构建的定制管道生成。 为了简单性和可扩展性,管道使用称为 Groovy 的 Java 解释型变
【文件预览】:
datasink-master
----setup.py(189B)
----generate.py(3KB)
----Pipeline.groovy(11KB)
----Makefile(122B)
----combine.py(3KB)
----base.py(2KB)
----mean.py(2KB)
----README.md(26KB)
----selection.py(10KB)
----nnls.py(1KB)
----test_diversity.py(879B)
----common.py(4KB)
----diversity.pyx(2KB)
----stacking.py(3KB)