用于自然语言处理的语料库——新浪新闻

时间:2013-04-02 03:34:48
【文件属性】:

文件名称:用于自然语言处理的语料库——新浪新闻

文件大小:10.9MB

文件格式:RAR

更新时间:2013-04-02 03:34:48

语料库 自然语言处理

我自己写的新闻解析器从网页中提取的,支持多页新闻,效果不错。


网友评论

  • 比较老的, 但是还是齐全的, GBK编码
  • 还可以,,就是有点少
  • 有近几年的吗?带关键词的?
  • 很不错的资源,解决了问题
  • 内容全是text为分开的文本,如果自己需要短语句需要自己切分 不过还是不错了.
  • 很全很丰富
  • 不错,就是量还是比较少,最后还是自己爬的数据
  • 不错的语料库,也就是论文上主要能用着,文本分类用。
  • 不错,谢谢分享给大家
  • 语料库内容不错,感谢分享,有再大的和新的新闻语料就更好了
  • 很好的中文语料,自然语言处理很多地方都可以使用,数量不是太多,学习研究的话可以了,用于商业项目的话还是太少
  • 还行,挺好的。就是还是少了点
  • 很好的数据!用于文本分类测试
  • 作为初学者入门用还是挺不错的,谢谢分享。
  • 内同很丰富,但没有按类型分开
  • 不错,内容很丰富
  • 挺好的语料库,辛苦了~写论文用用,多谢!
  • 简单学习还行,深入的话还是有欠缺
  • 东西很多,但是很乱,直接用的话,只能做测试用
  • 语料库,内容东西不少,直接拿来作为课题的语料库了,还不错!
  • 稍微少了一点,不过可以用,多谢了
  • 内容很多,但种类少了。。
  • 我是从学院派的驴的博文链接过来的,上面说不收下载分的
  • 语料库,分词和词性标注的时候用