基于多种策略的页面内容提取算法 (2007年)

时间:2024-06-06 19:40:50
【文件属性】:

文件名称:基于多种策略的页面内容提取算法 (2007年)

文件大小:374KB

文件格式:PDF

更新时间:2024-06-06 19:40:50

工程技术 论文

针对web页面存在与主题无关的噪音的问题,提出了基于页面结构与页面内容相结合的多策略页面内容提取算法。该算法根据改进的VIPS(基于视觉信息的页面分割算法)生成页面的块结构树,通过定义内聚度阈值和块结构树的最大深度,实现了块结构树中不同区域内不同分块粒度的要求;根据web页面提供的结构信息和内容信息提取块结构树叶子节点中的“主题”块和“主题相关”块;最后,对主题块和主题相关块的内容进行合并,提取页面的主要内容。实验表明,对任意下载、不同内容类型的页面,该算法都能有效地提取页面内容。


网友评论