文件名称:coalesce:合并 HDFS 中的目录
文件大小:6KB
文件格式:ZIP
更新时间:2024-06-26 03:54:33
Scala
合并 按日期分层组织的固定大小文件是在 HDFS 中存储日志的常用方法。 在处理这些数据时,它们被分割成的文件数量起着重要的作用。 递归遍历 HDFS 中的目录并访问单个文件会使 Spark 和 MapReduce 作业比拆分到更少但更大的文件的相同数据慢得多。 Coalesce 是一个简单的维护工具,用于将目录合并为文件。 /q/2014/01/14/130528/1923 /q/2014/01/14/130528/1924 /q/2014/01/14/130528/1925 /q/2014/01/14/130528/1926 /q/2014/01/14/742290/48 /q/2014/01/14/130528 /q/2014/01/14/742290/49 =====> /q/2014/01/14/742290 /q/2014/01
【文件预览】:
coalesce-master
----.gitignore(185B)
----README.md(2KB)
----scalastyle-config.xml(6KB)
----build.sbt(257B)
----LICENSE(1KB)
----src()
--------main()
----project()
--------plugins.sbt(162B)