程序基于 Java6+SWT+Htmlparser+dom4j,代码量总共3000多行
实现以下功能:
1.对输入网页集自动分类(其实是做聚类的工作,但是数学上不严谨)
2.自动提取模板,同时可以人工修正(提供比较方便的编辑器)
3.自动标注语义(仅针对产品信息页面)
4.自动抽取数据,输出为xml文件
抽取系统图示:
模板编辑器图示:
程序基于 Java6+SWT+Htmlparser+dom4j,代码量总共3000多行
实现以下功能:
1.对输入网页集自动分类(其实是做聚类的工作,但是数学上不严谨)
2.自动提取模板,同时可以人工修正(提供比较方便的编辑器)
3.自动标注语义(仅针对产品信息页面)
4.自动抽取数据,输出为xml文件
抽取系统图示:
模板编辑器图示: