文件名称:CompositeInputFormat:了解 MapReduce 中的数据连接
文件大小:3KB
文件格式:ZIP
更新时间:2024-07-28 15:13:57
Java
复合输入格式 了解 MapReduce 中的数据连接 摘要:该项目演示了如何使用 CompositeInputFomat 实现 Map side join。 为什么要花时间学习如何连接数据,而使用在更高抽象级别工作的工具(如 Hive 或 Pig)可以更好地完成它? 连接数据可以说是 Hadoop 的最大用途之一。 全面了解 Hadoop 如何执行连接对于决定使用哪个连接以及在出现问题时进行调试至关重要。 此外,一旦您完全了解如何在 Hadoop 中执行不同的连接,您就可以更好地利用 Hive 和 Pig 等工具。 使用 CompositeInputFormat 的先决条件: 您要加入的所有文件已排序 他们都有相同的加入密钥 文件太大,无法使用 DistributedCache 加入 如果你有 n 个文件按它们的连接键排序,你可以很容易地将它们组合起来,从每个文件中一个一个地读取记录,
【文件预览】:
CompositeInputFormat-master
----MapSideJoinMap.java(809B)
----MapSideJoinJob.java(1KB)
----README.md(2KB)
----inputdata()
--------salarydataset(170B)
--------empdataset(254B)