基于自动生成模板的Web信息抽取技术 (2009年)

时间:2024-06-13 08:02:07
【文件属性】:

文件名称:基于自动生成模板的Web信息抽取技术 (2009年)

文件大小:4.83MB

文件格式:PDF

更新时间:2024-06-13 08:02:07

自然科学 论文

在网络典情分析中,人们迫切需要自动化的工具在海量信息中抽取所需要的信息,以供进一步分析利用。针对此问题,提出了基于自动生成模板的Web信息抽取方法,可以消除网页噪声,快速有效地抽取所需的网页信息。该方法通过解析器将Web文档解析成文档对象模型,根据用户需求建立抽取规则,采用自动生成模板机制,并依据模板的抽取规则对网页信息进行抽取。实验证明,该抽取方法具有较高的召回率和准确率。


网友评论