基于DIV的主题抽取

时间:2014-01-19 09:26:50
【文件属性】:

文件名称:基于DIV的主题抽取

文件大小:365KB

文件格式:PDF

更新时间:2014-01-19 09:26:50

主题信息抽取 DIV标签树 STU—DIV模型树 主题相关度 剪枝算法

随着CSS+DIV布局方式逐渐成为网页结构布局的主流,对此类网页进行高效的主题信息抽取已成为 专业搜索引擎的迫切任务之一。提出一种基于DIV标签树的网页主题信息抽取方法,首先根据DIV 标签把HTML文档解析成DIV森林,然后过滤掉DW标签树中的噪声结点并且建立STU-DIV模型 树,最后通过主题相关度分析和剪枝算法,剪掉与主题信息无关的DIV标签树。通过对多个新闻网站 的网页进行分析处理,实验证明此方法能够有效地抽取新闻网页的主题信息。


网友评论

  • 很好的,毕业设计就借鉴了这个方法