文件名称:WebCrawler:网页爬取新浪微博内容
文件大小:5.9MB
文件格式:ZIP
更新时间:2024-07-24 11:30:39
Java
WebCrawler 网页爬取新浪微博内容
【文件预览】:
WebCrawler-master
----.gitignore(6B)
----src()
--------com()
--------test()
----.classpath(2KB)
----crawl()
--------crawldb()
----.settings()
--------org.eclipse.core.resources.prefs(89B)
--------org.eclipse.jdt.core.prefs(598B)
----download()
--------weibo.txt(156KB)
--------spam.txt(10KB)
--------new 4.txt(2KB)
----README.md(54B)
----.project(387B)
----lib()
--------avro-1.7.6.jar(416KB)
--------commons-compress-1.4.1.jar(236KB)
--------xz-1.0.jar(92KB)
--------commons-lang-2.6.jar(278KB)
--------WebCollector-1.31.jar(92KB)
--------start.bat(62B)
--------start.sh(62B)
--------commons-beanutils-1.9.2.jar(228KB)
--------jsoup-1.7.3.jar(290KB)
--------mongo-2.10.1.jar(389KB)
--------commons-logging-1.2.jar(60KB)
--------snappy-java-1.0.5.jar(1.19MB)
--------json-lib-2.4-jdk15.jar(155KB)
--------junit-4.11.jar(239KB)
--------juniversalchardet-1.0.3.jar(216KB)
--------jedis-2.4.2.jar(294KB)
--------log4j-1.2.17.jar(478KB)
--------commons-pool2-2.0.jar(105KB)
--------hamcrest-core-1.3.jar(44KB)
--------jackson-mapper-asl-1.9.13.jar(762KB)
--------ezmorph-1.0.6.jar(84KB)
--------jackson-core-asl-1.9.13.jar(227KB)
--------paranamer-2.3.jar(29KB)
--------slf4j-api-1.6.4.jar(25KB)
--------commons-collections-3.2.1.jar(562KB)