【文件属性】:
文件名称:基于行块分布函数的通用网页正文抽取算法
文件大小:1.87MB
文件格式:RAR
更新时间:2014-12-17 08:51:45
分布 网页正文抽取 算法
运用正则表达式能够精确的抽取某一固定格式的页面,但面对形形色色的HTML,运用规则处置难免捉襟见肘。能不能高效、精确的将一个页面的正文抽取出来,并做到在大范围网页范围内通用,这是一个直接关系上层应用的难题。
【文件预览】:
html
----126网易免费邮--你的专业电子邮局.html(11KB)
to_txt.exe
clear.exe
网友评论
- 坑爹的,毛都没有
- 没有源码根本不好用,上面评论都是刷的吧就当5分喂狗了
- 没有源码,也没有相应的类库,坑爹货
- 这里面真的是有源码的,算法比较清晰精简,效果也还不错,思路不错。
- 上边评论的都是骗纸,就给了一个.exe文件,根本不是介绍的那样。一点用都没有。。。
- 很有用,学习了
- 做爬虫的时候用上了,相当不错
- 做新闻爬虫的时候用上了,谢谢
- 资源不错,值得下载
- 很好的资源,但是我想看到源码
- 谢谢分享,能帮我解决问题
- 非常实用,谢谢分享~~