【文件属性】:
文件名称:Duplication-of-work:因为需求而做的一些重复的工作
文件大小:24.28MB
文件格式:ZIP
更新时间:2021-06-01 03:22:12
Java
Duplication-of-work
##[2014-07-22 SpiderBlog] ()
依据给定的一组URL抓取新浪博客正文
并按照文章发表的时间进行分类
引入的jar文件有
jsoup-1.7.2.jar
commons-io-2.4.jar
##[2014-07-23 Spide163News] ()
网易新闻国内新闻的抓取
对网页进行简单的解析
保留新闻正文的图片信息
将获得的文件进行重新整理,可以浏览主要信息
引入的jar文件有
jsoup-1.7.2.jar
commons-io-2.4.jar
##[2014-08-06 SpiderPaper] ()
抓取中国搜索报刊中全国性报刊
获取电子版报刊中的正文内容
采用统计的抽取算法进行正文抽取(效果不佳弃用)
只过滤P标签的到文本内容
结果组织为XML格式
使用IDEA+Maven开发
##[2014-08-27 Spi