一种基于模板的快速网页文本自动抽取算法* (2009年)下载

【文件属性】：

文件名称：一种基于模板的快速网页文本自动抽取算法* (2009年)

文件大小：943KB

文件格式：PDF

更新时间：2024-06-11 22:24:45

工程技术论文

针对网页噪声和网页非结构化信息抽取模板生成复杂度高的问题，提出了一种快速获取非结构信息抽取模板的算法。该算法先对网页噪声进行预处理，将其DOM树结构进行标签hash映射，通过自动训练的阈值快速判定网页的主要部分，根据数据块中的嵌套结构获取网页文本抽取模板。对不同类型网站的实验表明，该方法快速且具有较高的准确度。

立即下载

秒客网

一种基于模板的快速网页文本自动抽取算法* (2009年)

网友评论

相关文章