文件名称:一种基于模板的快速网页文本自动抽取算法* (2009年)
文件大小:943KB
文件格式:PDF
更新时间:2024-06-11 22:24:45
工程技术 论文
针对网页噪声和网页非结构化信息抽取模板生成复杂度高的问题,提出了一种快速获取非结构信息抽取模板的算法。该算法先对网页噪声进行预处理,将其DOM树结构进行标签hash映射,通过自动训练的阈值快速判定网页的主要部分,根据数据块中的嵌套结构获取网页文本抽取模板。对不同类型网站的实验表明,该方法快速且具有较高的准确度。
文件名称:一种基于模板的快速网页文本自动抽取算法* (2009年)
文件大小:943KB
文件格式:PDF
更新时间:2024-06-11 22:24:45
工程技术 论文
针对网页噪声和网页非结构化信息抽取模板生成复杂度高的问题,提出了一种快速获取非结构信息抽取模板的算法。该算法先对网页噪声进行预处理,将其DOM树结构进行标签hash映射,通过自动训练的阈值快速判定网页的主要部分,根据数据块中的嵌套结构获取网页文本抽取模板。对不同类型网站的实验表明,该方法快速且具有较高的准确度。