Accelerating-Sub-Dataset-Processing下载

【文件属性】：

文件名称：Accelerating-Sub-Dataset-Processing

文件大小：73KB

文件格式：ZIP

更新时间：2024-06-20 10:38:08

Java

加速子数据集处理子数据集处理，例如事件推理或统计学习，是广泛的当代数据分析的基础。然而，随着科学/社会信息的爆炸式增长，一个原始数据集通常包含数百万或数十亿个子数据集，并且当数据集被划分为多个子数据集时，单个子数据集的内容分布，称为子数据集局部性丢失。分区并存储到文件系统中，例如 Hadoop 文件系统。由于内容聚类，子数据集可能在数据分区之间具有不平衡的内容分布。如果没有子数据集的位置信息，不平衡的分布会降低许多大数据应用程序的性能。我们提出了一种称为 DataNet 的主动方法，它将在执行实际分析之前发现子数据集的位置。 DataNet提出了一种有效的算法来检测相关数据的簇，并区分分区内的主要和非主要子数据集。为了实现元数据的快速存储和查找，DataNet 采用了一种名为 ElasticMap 的新数据结构来存储子数据集的分布信息，并实现了快速访问子数据集内容分布的高效方

立即下载

【文件预览】：
Accelerating-Sub-Dataset-Processing-master
----client()
--------Client.class(3KB)
--------backup_Client.java(4KB)
--------Client.java(2KB)
----scheduler()
--------FileQuantity.class(626B)
--------NodesToFile.class(3KB)
--------DistributionScheduler.java(3KB)
--------Scheduler.class(2KB)
--------NodesToFile.java(2KB)
--------backup_DistributionScheduler.java(3KB)
--------FileWorkload.class(289B)
--------DistributionScheduler.class(4KB)
--------Scheduler.java(1KB)
--------FileWorkload.java(146B)
--------FileQuantity.java(308B)
----LICENSE(11KB)
----README.md(1KB)
----approximationmeta()
--------bloomfilter()
--------src()
--------scheduler()
--------app()
----communication()
--------DataImpl.java(2KB)
--------DataImpl.class(3KB)
--------ReadHDFS.java(885B)
--------Data.java(603B)
--------Data.class(827B)
----server()
--------Server.class(4KB)
--------Server.java(3KB)
----hdfs()
--------ReadFromHDFS.java(926B)
--------FileDistribution.java(1KB)
--------ReadFromHDFS.class(1KB)
--------FileLocations.java(307B)
--------ReadHDFS.java(885B)
--------ReadHDFS.class(2KB)
--------ReadHadoopFile.class(2KB)
----mapreducer()
--------WriteToHDFS.java(820B)
--------ClientReducer.java(1KB)
--------ClientMapper.java(949B)
--------ClientReducer.class(1KB)
--------WriteToHDFS.class(2KB)
--------ClientMapper.class(2KB)

秒客网

Accelerating-Sub-Dataset-Processing

网友评论