基于统计的网页正文信息抽取方法

时间:2012-07-02 05:22:53
【文件属性】:

文件名称:基于统计的网页正文信息抽取方法

文件大小:42KB

文件格式:PDF

更新时间:2012-07-02 05:22:53

基于统计的网页正文信息抽取方法

为了把自然语言处理技术有效的运用到网页文档中,本文提出了一种依靠统计信息,从中文新闻类 网页中抽取正文内容的方法。该方法先根据网页中的HTML 标记把网页表示成一棵树,然后利用树中每个 结点包含的中文字符数从中选择包含正文信息的结点。该方法克服了传统的网页内容抽取方法需要针对不 同的数据源构造不同的包装器的缺点,具有简单、准确的特点,试验表明该方法的抽取准确率可以达到95 %以 上。采用该方法实现的网页文本抽取工具目前为一个面向旅游领域的问答系统提供语料支持,很好的满足了 问答系统的需求。


网友评论

  • 很不错 ,毕业论文就用了一部分这个
  • 论文想法的通用性很差,这种文章也能上中文信息学报
  • 希望能提供相关代码就好
  • 网页正文抽取 适合初学者 谢谢分享
  • 只有论文,什么都没有。。
  • 做实验用来学习的,虽然不是搞信息检索的,但是感觉这篇也不是很深,要是有代码就更好了