文件名称:论文研究-面向DeepWeb数据自动抽取的模板生成方法.pdf
文件大小:295KB
文件格式:PDF
更新时间:2022-08-11 15:48:51
Deep Web,数据抽取,模板生成,文法推断
Deep Web结果页面大多由网站根据请求从后台数据库读取数据并动态填充到通用模板而生成的。研究如何从一系列同模板生成的页面中生成该模板,并利用模板自动抽取数据。给出了模板生成问题的形式化描述,提出了一种新颖的模板生成方法,利用生成的模板从实例网页中抽取数据。与现有方法相比,该方法适用于列表页面和详细页面两种类型网页。通过在多个领域站点上实验,说明新方法在不降低准确率的情况下能大大提高召回率。