hadoop_join_aggregate:在hadoop中加入和聚合mapreduce算法

时间:2024-06-25 10:55:46
【文件属性】:

文件名称:hadoop_join_aggregate:在hadoop中加入和聚合mapreduce算法

文件大小:4KB

文件格式:ZIP

更新时间:2024-06-25 10:55:46

Java

hadoop加入和聚合 介绍 在 hadoop 中使用两种不同的方法连接和聚合两个数据集。 Query4.java 使用两个 map-reduce 任务来完成。 此方法适用于减速器侧连接。 它需要一个 map-reduce 任务来加入 2 个数据集,将中间结果写入 HDFS,另一个 map-reduce 任务读回中间结果进行聚合。 Query4_1.java 仅使用一个 map-reduce 任务来完成。 此方法适用于映射器侧连接。 它使用分布式缓存进行映射侧连接,并在reduce阶段进行聚合。 Map side join 比 reducer side join 快。 但是只有当您执行映射端连接操作的表之一小到足以放入内存时,映射端连接才足够。 日期集信息 客户数据集:每行包含:CustID、Name、Age、CountryCode、Salary。 交易数据集:每行包含:Trans


【文件预览】:
hadoop_join_aggregate-master
----query4_1.java(3KB)
----README.md(1KB)
----query4.java(6KB)

网友评论