一种基于扩展DOM树的Web数据自动抽取方法 (2009年)

时间:2024-06-19 06:24:26
【文件属性】:

文件名称:一种基于扩展DOM树的Web数据自动抽取方法 (2009年)

文件大小:168KB

文件格式:PDF

更新时间:2024-06-19 06:24:26

工程技术 论文

Web数据抽取是当前的一个研究热点,目前还没有统一有效的抽取方法。在此提出一种研究思路,首先 将 Web页面的 DOM树进行扩展,添加视觉特征和链接特征。然后计算多个相似页面的扩展 DOM树中节点和 子树的新颖度,接着由新颖度识别对象数据并且依据数据项角色抽取出数据,最后将对象数据保存为 XML文 档。通过实验分析,验证了这个方法具有较好的抽取效果。


网友评论