spream:Apache Spark 的批处理流扩展(和 scalaz.stream 集成)

时间:2024-06-24 15:05:51
【文件属性】:

文件名称:spream:Apache Spark 的批处理流扩展(和 scalaz.stream 集成)

文件大小:49KB

文件格式:ZIP

更新时间:2024-06-24 15:05:51

Scala

垃圾邮件 批处理流扩展(和集成)。 当数据是有序序列(例如时间序列或事件序列)时,流处理很自然。 流处理也是处理大型数据集(无论是不是序列)的内存高效方法。 但是为了快速处理现有的大系列数据集,需要按时间对它们进行分区并并行处理。 当顺序很重要并且处理取决于过去(或未来)的值时,这很重要 - 例如移动窗口。 该项目使用和解决了这些问题。 主要特征: 将一个很长的系列(在有序的 RDD 中)划分为大小大致相同且重叠的分区(估计密钥分布,以便在密钥不规则间隔时这仍然有效)。 生成的分区将有足够的过去和未来数据,以促进无任何间隙的移动窗口流操作。 将 large scalaz.stream.Process[Task,O]或scalaz.stream.Process[Nothing,O]的输出直接写入 RDD 分区(而不使用缓冲队列、 runLog等)。 在分区上运行scalaz.st


【文件预览】:
spream-master
----sbt(15KB)
----src()
--------test()
--------main()
----LICENSE(11KB)
----build.sbt(1KB)
----README.md(5KB)
----.gitignore(64B)

网友评论