Java网络爬虫及正文提取

时间:2014-01-03 16:01:54
【文件属性】:

文件名称:Java网络爬虫及正文提取

文件大小:535KB

文件格式:RAR

更新时间:2014-01-03 16:01:54

爬虫 正文提取

用Java语言实现的网络爬虫,并使用正则表达式提取html网页的正文!


网友评论

  • 没有什么用啊啊
  • 没太看懂,我太菜了么
  • 不错,可以用
  • 基本功能能实现,可以下载网页上链接的htm,但是对正文的处理显得不足,正则表达式的使用还应更具体一点,总之差强人意
  • 没有找到正文提取的方法
  • 不是我想要的,参考下自己写
  • 能够提取网页中的正文 很好
  • 还可以吧 只是参考
  • 还是不是我想要的,不能智能判断正文,可能要求太高了?!
  • 部分调试的代码没删,花了点时间才全部弄懂,可以扩展起来,还不错吧。
  • 谢谢分享,还是很有用的!
  • 谢谢分享,资源用过了,没有问题 .
  • 还行吧 就是有点动能没实现
  • 可以了,能提取出正文,可以满足我的需求,不过还要进一步优化的
  • 谢谢分享,资源用过了,没有问题 .
  • 不错, 很好用。。
  • 的确是正则提取的 ,但是局限性挺大的
  • 有一些BUG。。。。
  • 还行,不过还是有一些bug需要调
  • 一般吧, 特殊点的网页正文提的不太准