模板化网页主题信息的提取方法

时间:2013-03-21 12:04:27
【文件属性】:

文件名称:模板化网页主题信息的提取方法

文件大小:591KB

文件格式:PDF

更新时间:2013-03-21 12:04:27

网页 信息提取

为了消除网页噪音, 有效地提取基于模板的网页主 题信息, 提出了一种新的信息提取方法。该方法采用机器自动学习方式生成网页集的模板; 以网页链接关系中的锚点文本作为提取目标对模板进行标记, 生成对应模板的提取规则; 依据模板的提取规则对网页主题信息进行提取。对国内2 588 个新闻网页进行了检测。实验结果表明, 该方法可以快速、有效地提取模板生成的网页集主题信息, 准确率达99. 5%。将该方法应用于搜索引擎系统(木棉检索) 中, 与原来的检索系统相比较, 索引文件的大小减少约50% , 检索的速度和精确度也得到提高。


网友评论

  • 虽然没派上什么用场,但这种算法还是给了我一点思路
  • 这种算法的撮准确度不是太高!