Java网络爬虫及正文提取

时间：2014-01-03 16:01:54

【文件属性】：

文件名称：Java网络爬虫及正文提取

文件大小：535KB

文件格式：RAR

更新时间：2014-01-03 16:01:54

爬虫正文提取

用Java语言实现的网络爬虫，并使用正则表达式提取html网页的正文！

立即下载

网友评论

没有什么用啊啊
没太看懂，我太菜了么
不错，可以用
基本功能能实现，可以下载网页上链接的htm，但是对正文的处理显得不足，正则表达式的使用还应更具体一点，总之差强人意
没有找到正文提取的方法
不是我想要的，参考下自己写
能够提取网页中的正文很好
还可以吧只是参考
还是不是我想要的，不能智能判断正文，可能要求太高了？！
部分调试的代码没删，花了点时间才全部弄懂，可以扩展起来，还不错吧。
谢谢分享，还是很有用的！
谢谢分享，资源用过了，没有问题 .
还行吧就是有点动能没实现
可以了，能提取出正文，可以满足我的需求，不过还要进一步优化的
谢谢分享，资源用过了，没有问题 .
不错，很好用。。
的确是正则提取的，但是局限性挺大的
有一些BUG。。。。
还行，不过还是有一些bug需要调
一般吧，特殊点的网页正文提的不太准

相关文章

