SCWS简体中文分词辞典txt格式

时间:2011-04-05 04:05:28
【文件属性】:

文件名称:SCWS简体中文分词辞典txt格式

文件大小:5.55MB

文件格式:TXT

更新时间:2011-04-05 04:05:28

分词 简体中文 辞典

这是我在研究中文分词时找到的一个辞典。感谢hightman的基础工作。

==============================================
SCWS-1.x.x 自述文件 (Written by hightman)
HomePage: http://www.hightman.cn
...
[SCWS 简介]
SCWS 是 Simple Chinese Words Segmentation 的缩写(简易中文分词系统)。
它是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的
切分成词,因为词是汉语的基本语素单位,而书写的时候不像英语会在词之间
用空格分开,所以如何准确快速的分词一直是中文分词的攻关难点。
本分词法并无太多创新成分,采用的是自己采集的词频词典,并辅以一定的专
有名称,人名,地名,数字年代等规则识别来达到基本分词,经小范围测试大
概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取
等场合运用。首次雏形版本发布于 2005 年底。
本系统支持的汉字编码包括 GBK、UTF-8
在线分词演示:
G B K: http://www.hightman.cn/demo/scws/v4.php
UTF-8: http://www.hightman.cn/demo/scws/v48.php
详情可参看:http://www.hightman.cn/?scws


网友评论

  • 分词很给力,帮助很大,再接再厉做得更好。
  • 很好的词典
  • 不是很好用啊。
  • 字典很给力,正在应用中,谢谢分享
  • 用来做文本分类的,还不错
  • 用来做NLP作业
  • 有格式的吧,要真能自己扩容就狠了,做得跟输入法词库一个级别。。。啧啧。。。
  • 不错 挺多 但有些特定行业还是需要自己制作 就是不知怎样加词进去
  • 字典还可以, 主要是用来看看格式, 但是不全,最新的 已经10几M了
  • 分词很给力,帮助很大,再接再厉做得更好。
  • 牛人,帮了我很大的忙,非常感谢
  • 终于找到了,一词一行,使用很方便
  • 不是很好,就这样,用于交作业还成,但是其他的用途就算了吧~
  • 很给力的字典!很适合做中文分词中字典按照中文字典树(基于Trie和哈希)的结构存储。