文件名称:NutchStats:用于从 Nutch 爬网生成页面统计信息的脚本
文件大小:10KB
文件格式:ZIP
更新时间:2024-08-06 08:58:32
Perl
统计数据 用于从 Nutch 爬网生成内容清单样式页面统计信息的脚本。 概述 这是一组脚本,用于使用 Nutch 生成单个网站抓取的每页统计信息的 CSV 文件,就像用于内容审核一样。 它是针对开发的,但可能适用于其他版本。 快速开始 假设您已经通过 crawl 命令生成了 Nutch crawl,例如 bin/crawl urls/ MyCrawl 4 您可以通过以下命令生成每页统计信息的转储: perl makedump.pl MyCrawl perl processcrawl.pl MyCrawl 4 > MyCrawlStats.csv 输出 (MyCrawlStats.csv) 是一个针对 Excel 格式化的 CSV 文件,其中包含以下字段: Url, Type, Extension, Host, Page Title, Word Count, In Links Co
【文件预览】:
NutchStats-master
----processcrawl.pl(7KB)
----makedump.pl(929B)
----LICENSE(11KB)
----README.md(6KB)