warc-mapreduce:对 Hadoop 的 mapreduce api 的 warc 和湿支持

时间:2024-07-06 06:57:30
【文件属性】:

文件名称:warc-mapreduce:对 Hadoop 的 mapreduce api 的 warc 和湿支持

文件大小:16KB

文件格式:ZIP

更新时间:2024-07-06 06:57:30

Java

warc-mapreduce 用于 hadoop 新 api (mapreduce) 的 warc 工作版本,基于 lemur 项目,有一些修复(在 java 目录中) 还有一个将 warc 与 hadoop-clojure 结合使用的示例。 要运行该示例,请从 common-crawl 获取一个文件(2013 年的第一次爬网 ): s3cmd get s3://aws-publicdatasets/common-crawl/crawl-data/CC-MAIN-2013-20/segments/1368710313659/wet/CC-MAIN-20130516131833-00097-ip-10-60-113-184.ec2.internal.warc.wet.gz 以及 2013 年冬季抓取的文件示例 ( ),不要忘记更改 example.clj 测试中的文件名: s3


【文件预览】:
warc-mapreduce-master
----src()
--------warc_mapreduce()
----doc()
--------intro.md(132B)
----java()
--------edu()
----README.md(907B)
----test()
--------warc_mapreduce()
----project.clj(501B)

网友评论