文件名称:基于统计的网页正文信息抽取
文件大小:751KB
文件格式:RAR
更新时间:2012-06-21 06:25:58
基于统计 网页正文抽取
本方法中用到了网页分析器htmlparser,采用Java语言编程,工具是eclipse。可以实现把正文放在table结点的HTML网页的正文信息抽取功能。
【文件预览】:
ExtractContent
----.project(614B)
----bin()
--------htmllexer.jar(70KB)
--------sitecapturer.jar(15KB)
--------filterbuilder.jar(68KB)
--------log4j-1.2.11.jar(342KB)
--------extract()
--------junit-3.8.1.jar(118KB)
--------thumbelina.jar(42KB)
--------htmlparser.jar(136KB)
----src()
--------extract()
----.classpath(1KB)