SDGen:用于存储基准测试的合成数据生成器

时间:2024-07-14 00:10:03
【文件属性】:

文件名称:SDGen:用于存储基准测试的合成数据生成器

文件大小:2.45MB

文件格式:ZIP

更新时间:2024-07-14 00:10:03

Java

SDGen 目录 介绍 SDGen 是用于存储基准测试的合成数据生成器。 该框架的目标是使用户能够创建方法来生成真实的数据,以提供存储基准测试工具。 建筑学 SDGen 旨在捕获可能影响对其应用数据缩减技术结果的数据特征。 正如我们接下来展示的那样,SDGen 分两个阶段工作: 启动扫描阶段,构建供后续生成阶段使用的数据特征。 扫描阶段 为了捕捉数据的特征,SDGen 实施了两级扫描阶段:块级和数据集级。 许多压缩算法(例如lz4、zlib)将输入数据流分成块,并对每个块单独应用压缩; 此类算法试图利用源于数据局部性(重复、公共字节)的冗余,同时最小化其内部数据结构的大小。 因此,我们设计中的一个核心元素是块表征 (CC)。 CC 是用户定义的模块,包含每个数据块的必要信息。 SDGen 通过将给定数据集的内容拆分成块(例如,从 8KB 到 128KB,可由用户配置)来扫描给定的数据集,


网友评论