Web信息自动/半自动抽取系统——演示系统

时间:2022-07-15 22:21:48

程序基于 Java6+SWT+Htmlparser+dom4j,代码量总共3000多行

 

实现以下功能:

 

1.对输入网页集自动分类(其实是做聚类的工作,但是数学上不严谨)

 

2.自动提取模板,同时可以人工修正(提供比较方便的编辑器)

 

3.自动标注语义(仅针对产品信息页面)

 

4.自动抽取数据,输出为xml文件

 

点击进入下载页面

 

抽取系统图示:

Web信息自动/半自动抽取系统——演示系统

 

模板编辑器图示:

Web信息自动/半自动抽取系统——演示系统