基于行块分布函数的通用网页正文抽取算法

时间:2014-12-17 08:51:45
【文件属性】:

文件名称:基于行块分布函数的通用网页正文抽取算法

文件大小:1.87MB

文件格式:RAR

更新时间:2014-12-17 08:51:45

分布 网页正文抽取 算法

运用正则表达式能够精确的抽取某一固定格式的页面,但面对形形色色的HTML,运用规则处置难免捉襟见肘。能不能高效、精确的将一个页面的正文抽取出来,并做到在大范围网页范围内通用,这是一个直接关系上层应用的难题。


【文件预览】:
html
----126网易免费邮--你的专业电子邮局.html(11KB)
to_txt.exe
clear.exe

网友评论

  • 坑爹的,毛都没有
  • 没有源码根本不好用,上面评论都是刷的吧就当5分喂狗了
  • 没有源码,也没有相应的类库,坑爹货
  • 这里面真的是有源码的,算法比较清晰精简,效果也还不错,思路不错。
  • 上边评论的都是骗纸,就给了一个.exe文件,根本不是介绍的那样。一点用都没有。。。
  • 很有用,学习了
  • 做爬虫的时候用上了,相当不错
  • 做新闻爬虫的时候用上了,谢谢
  • 资源不错,值得下载
  • 很好的资源,但是我想看到源码
  • 谢谢分享,能帮我解决问题
  • 非常实用,谢谢分享~~