文件名称:sisyphus:一个高性能的java数据处理框架
文件大小:865KB
文件格式:ZIP
更新时间:2024-07-22 17:32:12
Java
西西弗斯 一个高性能的java数据处理框架。 简而言之 如果您需要迭代和修改、过滤或聚合大量数据,Sisyphus 就是适合您的 Java 库。 动机 处理数据时的常见模式是读取、修改和更新大型数据集中的某些条目。 这种处理一般需要对数据集进行整个扫描,才能找到需要更新(或删除)的条目。 对于许多应用程序,需要进行多次修改,有时是针对数据集的不同部分。 以这种方式更新数据集的大子集 (<10%) 在数据库中可能非常昂贵。 另一种常见模式是连接操作,对于具有公共部分的条目,您可以通过使用其他数据集中的数据完成一个数据集中的条目来合并两个或多个数据集。 Sisyphus 是一个 Java 库,它试图解决需要对数据集进行全面扫描才能提取或修改数据的数据处理问题。 原则上,它类似于“sed”或“awk”,具有一些现代的、强大的工具,例如哈希表、连接和用户定义的函数。 Sisyphus 专门针