文件名称:streamDM:用于Spark流的流数据挖掘库
文件大小:1.99MB
文件格式:ZIP
更新时间:2024-05-28 20:47:40
Scala
用于Spark Streaming的streamDM streamDM是一款新的开源软件,用于使用挖掘大数据流,该软件始于。 streamDM已获得Apache软件许可v2.0的许可。 大数据流学习 大数据流学习比批处理或脱机学习更具挑战性,因为数据在流的整个生命周期中可能不会保持相同的分布。 此外,流中出现的每个示例只能处理一次,或者需要用较小的内存占用空间进行汇总,并且学习算法必须非常高效。 火花流 是核心 API的扩展,可从多种来源进行流处理。 Spark是用于数据集的大规模分布式处理的可扩展和可编程框架,称为弹性分布式数据集(RDD)。 Spark Streaming接收输入数据流,并将数据分为几批,然后由Spark引擎进行处理以生成结果。 Spark Streaming数据被组织为一系列DStream,在内部以RDD序列表示。 包含的方法 在当前的StreamDM v0.2版