spream:Apache Spark 的批处理流扩展（和 scalaz.stream 集成）下载

【文件属性】：

文件名称：spream:Apache Spark 的批处理流扩展（和 scalaz.stream 集成）

文件大小：49KB

文件格式：ZIP

更新时间：2024-06-24 15:05:51

Scala

垃圾邮件批处理流扩展（和集成）。当数据是有序序列（例如时间序列或事件序列）时，流处理很自然。流处理也是处理大型数据集（无论是不是序列）的内存高效方法。但是为了快速处理现有的大系列数据集，需要按时间对它们进行分区并并行处理。当顺序很重要并且处理取决于过去（或未来）的值时，这很重要 - 例如移动窗口。该项目使用和解决了这些问题。主要特征：将一个很长的系列（在有序的 RDD 中）划分为大小大致相同且重叠的分区（估计密钥分布，以便在密钥不规则间隔时这仍然有效）。生成的分区将有足够的过去和未来数据，以促进无任何间隙的移动窗口流操作。将 large scalaz.stream.Process[Task,O]或scalaz.stream.Process[Nothing,O]的输出直接写入 RDD 分区（而不使用缓冲队列、 runLog等）。在分区上运行scalaz.st

立即下载

【文件预览】：
spream-master
----sbt(15KB)
----src()
--------test()
--------main()
----LICENSE(11KB)
----build.sbt(1KB)
----README.md(5KB)
----.gitignore(64B)

秒客网

spream:Apache Spark 的批处理流扩展（和 scalaz.stream 集成）

网友评论

相关文章