论文研究-基于标记窗的网页正文信息提取方法.pdf

时间:2022-08-11 12:45:42
【文件属性】:

文件名称:论文研究-基于标记窗的网页正文信息提取方法.pdf

文件大小:216KB

文件格式:PDF

更新时间:2022-08-11 12:45:42

标记窗,提取,文档对象模型

提出了基于标记窗的网页正文信息提取方法。该方法不仅适合于处理一个网页中所有正文信息均放在一个td 中的情况,也适合于处理网页正文放在多个td中的情况,还可以处理网页正文文字短到与网页其余部分文字(如广告、导航条、版权)长度相当的情况。尤其重要的是,它能够解决非Table 结构的网页正文提取问题。实验表明,该方法可以提高网页正文提取的准确率,适用性强。


网友评论