366万常用的中文词汇整理

时间:2021-09-22 10:23:37
【文件属性】:

文件名称:366万常用的中文词汇整理

文件大小:20.77MB

文件格式:7Z

更新时间:2021-09-22 10:23:37

NLP

作者:刘邵博 此词典为个人综合多本词典整合的一个大词典,词典共有词汇3669216个词汇。 词典结构为:词语\t词性\t词频。 词频是用ansj分词对270G新闻语料进行分词统计词频获得。 部分词汇无法确定是什么词性,对词性进行特别标注:nw和comb 1、词性nw表示本身不知道是什么词性。 2、词性comb表示通过ansj的nlp分词之后又被拆成了两个词。


【文件预览】:
360万中文词库
----词典360万单词量.txt(64.94MB)
----README.txt(513B)

网友评论

  • 词汇很多,但有很多不应该成为词汇的组合。例如: 价格的 comb 167894 双方的 comb 167758 强的 comb 167417 的形式 comb 167264 结束了 comb 167218 而被 comb 166705 是自 comb 164568
  • 还是很不错的,词汇比较多