文件名称:news-crawler:特定主题新闻非定向爬虫
文件大小:16.54MB
文件格式:ZIP
更新时间:2024-06-30 09:53:53
Java
news-crawler 特定主题新闻非定向爬虫 参数说明: w : search words 支持多组查询,单组查询中若有多个词用空格隔开并用""括起来. 使用demo: -w "中国 军演" 反恐 (demo中含两组查询词,第一组 ”中国 军演“ , 第二组 ”反恐“) o : output directory.默认./data 使用demo: -o ./data/baidu。 n : upper number of crawled documents for each group of search words. f : file path of search words. 也支持以文件形式输入插叙词,每行为一组查询词,若有多个词用空格隔开并用""括起来。demo: -f ./data/baidu/search.txt Demo: java -jar news-crawler-
【文件预览】:
news-crawler-master
----.project(370B)
----特定主题非定向爬虫信息抽取算法.docx(39KB)
----src()
--------org()
----lib()
--------htmllexer.jar(70KB)
--------htmlparser.jar(136KB)
--------jsoup-1.7.3.jar(290KB)
--------commons-lang-2.4.jar(256KB)
--------slf4j-log4j12-1.6.1.jar(10KB)
--------ansj()
--------commons-logging-1.1.1.jar(59KB)
--------httpclient-4.1.1.jar(343KB)
--------log4j-1.2.17.jar(478KB)
--------slf4j-api-1.6.1.jar(25KB)
--------httpcore-4.1.jar(177KB)
--------commons-io-2.4.jar(181KB)
--------chineseutils-0.1.jar(101KB)
----news-crawler-baidu-v4.2.jar(6.77MB)
----res()
--------library()
----.settings()
--------org.eclipse.jdt.core.prefs(587B)
--------org.eclipse.core.resources.prefs(100B)
----LICENSE(18KB)
----log4j.properties(2KB)
----README.md(945B)
----v4.2-readme.txt(894B)
----data()
--------search.txt(37B)
--------baidu()
----.classpath(2KB)