论文研究-Web信息抽取技术综述.pdf

时间:2022-08-11 14:45:19
【文件属性】:

文件名称:论文研究-Web信息抽取技术综述.pdf

文件大小:573KB

文件格式:PDF

更新时间:2022-08-11 14:45:19

Web信息抽取,网页噪声,URL聚类,DSE算法,RoadRunner系统,MDR,视觉特征,模板

快速高效地获取网页主题信息的需求使得Web信息抽取技术成为信息技术领域的研究热点。现有的Web信息抽取技术大致可以归纳为基于统计理论的、基于视觉特征的、基于DOM树结构的和基于模板的几类。由于网页文本本身具有树结构并且具有一定的相似性,基于DOM树结构和基于模板的抽取技术发展很快而且已经得到了广泛的应用。分别论述了上述几类技术在近几年来的研究进展,从自动化程度、适用范围和复杂性三个角度分析对比了几类技术的优缺点。


网友评论