文件名称:devsearch-concat:并行连接来自 devmine 的 repos
文件大小:27KB
文件格式:ZIP
更新时间:2024-06-25 16:23:40
Scala
devsearch-concat 连接来自 DevMine 源存储库的源文件。 hdfs 上的块大小至少为 64MB。 出于这个原因,如果我们想使用 spark 或 hadoop 的 MapReduce 运行一些大型计算,我们需要将小文件连接成更适合 hdfs 的大文件。 devsearch-concat 将遍历由 DevMine 的 crawld ( ) 提供的 GitHub 数据,并过滤掉所有不是文本或太大而无法成为人类可读代码的文件。 然后它将使用这些文件创建大小至少为 128MB 的 tarball。 devsearch-concat 假定目录结构如下: REPO_ROOT └── Language Folder └── Github User └── Repository 存储库可以是普通目录或 tar 档案。 生成的 tar 存档中的所有
【文件预览】:
devsearch-concat-master
----.travis.yml(326B)
----update_scaladoc.sh(1KB)
----LICENSE(34KB)
----src()
--------test()
--------main()
----build.sbt(2KB)
----.gitignore(203B)
----scalastyle-config.xml(6KB)
----project()
--------plugins.sbt(252B)
--------build.properties(132B)
----README.md(1KB)