文件名称:LoremIpsumCrawler:CSCI 572 2015 Spring作业
文件大小:55.07MB
文件格式:ZIP
更新时间:2024-07-11 17:01:50
Java
LoremIpsumCrawler
================================ CSCI 572 2015 年Spring作业
Mime 类型:(get_mime_types.py)
获取 MIME 类型的命令python get_mime_types.py
【文件预览】:
LoremIpsumCrawler-master
----get_mime_types.py(963B)
----failed_urls_selenium.txt(32KB)
----mime_type(2KB)
----urlfilter-exactduplicate()
--------build.xml(1KB)
--------src()
--------ivy.xml(1KB)
--------plugin.xml(2KB)
--------lib()
----Metadata_gcmd.txt(9KB)
----SimHash()
--------bin()
--------src()
--------lib()
----crawl_errors.txt(316B)
----failed_urls.txt(470KB)
----regex-urlfilter.txt(2KB)
----plugin-build.xml(8KB)
----d3_task()
--------testdata()
--------index.html(2KB)
--------similarity-scores.txt(4KB)
----nutch-site.xml(3KB)
----urlfilter-nearduplicate()
--------build.xml(1KB)
--------src()
--------ivy.xml(1KB)
--------plugin.xml(2KB)
--------lib()
----README.md(2KB)
----crawl_errors_selenium.txt(2KB)
----readme.txt(2KB)
----get_crawl_stats.py(2KB)