LoremIpsumCrawler:CSCI 572 2015 Spring作业

时间:2024-07-11 17:01:50
【文件属性】:

文件名称:LoremIpsumCrawler:CSCI 572 2015 Spring作业

文件大小:55.07MB

文件格式:ZIP

更新时间:2024-07-11 17:01:50

Java

LoremIpsumCrawler ================================ CSCI 572 2015 年Spring作业 Mime 类型:(get_mime_types.py) 获取 MIME 类型的命令python get_mime_types.py /crawldb where - 爬行中使用的项目名称 获取统计信息:(get_crawl_stats.py) 获取统计信息的命令python get_crawl_stats.py /crawldb where - 爬取中使用的项目名称 找到的 MIME 类型:(mime_types) 爬行过程中发现的各种 mime 类型列在 mime_types 文件中 第一次抓取错误:(crawl_errors.txt) 可以在 crawl_errors.txt 中找到第一次爬网(没有 se


【文件预览】:
LoremIpsumCrawler-master
----get_mime_types.py(963B)
----failed_urls_selenium.txt(32KB)
----mime_type(2KB)
----urlfilter-exactduplicate()
--------build.xml(1KB)
--------src()
--------ivy.xml(1KB)
--------plugin.xml(2KB)
--------lib()
----Metadata_gcmd.txt(9KB)
----SimHash()
--------bin()
--------src()
--------lib()
----crawl_errors.txt(316B)
----failed_urls.txt(470KB)
----regex-urlfilter.txt(2KB)
----plugin-build.xml(8KB)
----d3_task()
--------testdata()
--------index.html(2KB)
--------similarity-scores.txt(4KB)
----nutch-site.xml(3KB)
----urlfilter-nearduplicate()
--------build.xml(1KB)
--------src()
--------ivy.xml(1KB)
--------plugin.xml(2KB)
--------lib()
----README.md(2KB)
----crawl_errors_selenium.txt(2KB)
----readme.txt(2KB)
----get_crawl_stats.py(2KB)

网友评论