文件名称:视觉与标签信息的Deep Web查询页面内容提取 (2012年)
文件大小:4.24MB
文件格式:PDF
更新时间:2024-06-08 13:57:33
自然科学 论文
提出了一种结合页面视觉信息和标签信息来提取页面内容结构的方法――DVS。DVS首先通过分析页面的CSS样式信息、DOM树以获得页面的视觉信息和标签信息,初步得到页面的视觉树;然后利用树的路径相似算法,既考虑标签信息又考虑视觉信息来计算树中模块的相似性,对模块进行聚类,最终得到页面的视觉树,即页面的内容结构。DVS主要的特色在于从视觉信息和标签信息两方面来提取页面的内容结构;采用树形结构表示视觉信息,将分析视觉信息转换成分析“视觉属性”树。实验采用UIUC的TEL数据集,分别与WTS算法、VIPS算法进行了