warc-hadoop:Hadoop 的 WARC(Web 档案)输入和输出格式

时间:2024-07-28 04:31:27
【文件属性】:

文件名称:warc-hadoop:Hadoop 的 WARC(Web 档案)输入和输出格式

文件大小:73KB

文件格式:ZIP

更新时间:2024-07-28 04:31:27

Java

Hadoop 的 WARC 输入和输出格式 warc-hadoop 是一个 Java 库,用于在 Hadoop 中处理文件。 它提供了用于在 MapReduce 作业中读取 WARC 文件的 InputFormats 和用于写入 WARC 文件的 OutputFormats(支持“旧” org.apache.hadoop.mapred和“新” org.apache.hadoop.mapreduce API)。 WARC 文件用于记录网络爬虫的活动。 它们包括发送到服务器的 HTTP 请求和收到的 HTTP 响应(包括标头)。 WARC 是一个,被和使用(除其他外)。 这个 warc-hadoop 库是为了探索数据而编写的,这是一个公开可用的数十亿网页转储。 这些数据作为 AWS 上的免费提供。 如果你想处理它,你只需要支付在AWS上处理它的计算能力,或者下载它的网络带宽。 使用 war


【文件预览】:
warc-hadoop-master
----.gitignore(58B)
----settings.gradle(33B)
----build.gradle(2KB)
----src()
--------main()
--------test()
----gradlew(5KB)
----LICENSE(1KB)
----README.md(4KB)
----gradlew.bat(2KB)
----gradle.properties(38B)
----gradle()
--------wrapper()
----RELEASE.md(2KB)

网友评论