Accelerating-Sub-Dataset-Processing

时间:2024-06-20 10:38:08
【文件属性】:

文件名称:Accelerating-Sub-Dataset-Processing

文件大小:73KB

文件格式:ZIP

更新时间:2024-06-20 10:38:08

Java

加速子数据集处理 子数据集处理,例如事件推理或统计学习,是广泛的当代数据分析的基础。 然而,随着科学/社会信息的爆炸式增长,一个原始数据集通常包含数百万或数十亿个子数据集,并且当数据集被划分为多个子数据集时,单个子数据集的内容分布,称为子数据集局部性丢失。分区并存储到文件系统中,例如 Hadoop 文件系统。 由于内容聚类,子数据集可能在数据分区之间具有不平衡的内容分布。 如果没有子数据集的位置信息,不平衡的分布会降低许多大数据应用程序的性能。 我们提出了一种称为 DataNet 的主动方法,它将在执行实际分析之前发现子数据集的位置。 DataNet提出了一种有效的算法来检测相关数据的簇,并区分分区内的主要和非主要子数据集。 为了实现元数据的快速存储和查找,DataNet 采用了一种名为 ElasticMap 的新数据结构来存储子数据集的分布信息,并实现了快速访问子数据集内容分布的高效方


【文件预览】:
Accelerating-Sub-Dataset-Processing-master
----client()
--------Client.class(3KB)
--------backup_Client.java(4KB)
--------Client.java(2KB)
----scheduler()
--------FileQuantity.class(626B)
--------NodesToFile.class(3KB)
--------DistributionScheduler.java(3KB)
--------Scheduler.class(2KB)
--------NodesToFile.java(2KB)
--------backup_DistributionScheduler.java(3KB)
--------FileWorkload.class(289B)
--------DistributionScheduler.class(4KB)
--------Scheduler.java(1KB)
--------FileWorkload.java(146B)
--------FileQuantity.java(308B)
----LICENSE(11KB)
----README.md(1KB)
----approximationmeta()
--------bloomfilter()
--------src()
--------scheduler()
--------app()
----communication()
--------DataImpl.java(2KB)
--------DataImpl.class(3KB)
--------ReadHDFS.java(885B)
--------Data.java(603B)
--------Data.class(827B)
----server()
--------Server.class(4KB)
--------Server.java(3KB)
----hdfs()
--------ReadFromHDFS.java(926B)
--------FileDistribution.java(1KB)
--------ReadFromHDFS.class(1KB)
--------FileLocations.java(307B)
--------ReadHDFS.java(885B)
--------ReadHDFS.class(2KB)
--------ReadHadoopFile.class(2KB)
----mapreducer()
--------WriteToHDFS.java(820B)
--------ClientReducer.java(1KB)
--------ClientMapper.java(949B)
--------ClientReducer.class(1KB)
--------WriteToHDFS.class(2KB)
--------ClientMapper.class(2KB)

网友评论