mimetype-filter:Nutch 1.x 用于索引阶段 MIME 类型过滤的插件

时间:2024-07-09 17:53:56
【文件属性】:

文件名称:mimetype-filter:Nutch 1.x 用于索引阶段 MIME 类型过滤的插件

文件大小:12KB

文件格式:ZIP

更新时间:2024-07-09 17:53:56

Java

mimetype-过滤器 笔记 这个插件已经合并到了 Nutch 项目的主干中。 从 1.10 版开始,此插件将与 Nutch 发行版捆绑在一起 Nutch 1.x 插件,允许通过抓取网页的 MIME 类型属性过滤索引文档。 基本上,这将允许您限制将存储在 Solr/Elasticsearch 索引中的内容的 MIME 类型,而无需限制抓取/解析过程,因此无需使用 URLFilter 插件系列。 这也解决了一个特殊的极端情况,当某些 URL 没有任何格式可以过滤,例如某些 RSS 提要 ( http://www.awesomesite.com/feed ) 时,它将以与所有 HTML 页面混合的索引结尾。 配置 一个自定义配置文件,其中包含可以使用nutch-site.xml文件中的属性mimetype.filter.file指定的规则: < property> < name


【文件预览】:
mimetype-filter-master
----.gitignore(189B)
----sample()
--------allow-images.txt(1KB)
--------block-html.txt(1KB)
----ivy.xml(1KB)
----src()
--------java()
--------test()
----plugin.xml(1KB)
----README.md(2KB)
----build.xml(1KB)

网友评论