基于统计的网页正文信息抽取

时间:2012-06-21 06:25:58
【文件属性】:

文件名称:基于统计的网页正文信息抽取

文件大小:751KB

文件格式:RAR

更新时间:2012-06-21 06:25:58

基于统计 网页正文抽取

本方法中用到了网页分析器htmlparser,采用Java语言编程,工具是eclipse。可以实现把正文放在table结点的HTML网页的正文信息抽取功能。


【文件预览】:
ExtractContent
----.project(614B)
----bin()
--------htmllexer.jar(70KB)
--------sitecapturer.jar(15KB)
--------filterbuilder.jar(68KB)
--------log4j-1.2.11.jar(342KB)
--------extract()
--------junit-3.8.1.jar(118KB)
--------thumbelina.jar(42KB)
--------htmlparser.jar(136KB)
----src()
--------extract()
----.classpath(1KB)

网友评论

  • 资源很好,代码很详细,很实用,谢谢!
  • 谢谢分享 初学者收下了 很实用 具有参考价值
  • 只是一篇论文。。。