千万级词库-Bigram

时间:2021-07-26 07:41:01
【文件属性】:

文件名称:千万级词库-Bigram

文件大小:45.35MB

文件格式:RAR

更新时间:2021-07-26 07:41:01

中文分词 自然语言处理 Bigram

因工作需要,最近在做自然语言处理方面的研究,第一步需要实现中文分词,市面上有许多开源的分词组件,本人使用的是word分词,但这些开源组件中的词库都比较小,因此这段时间主要是在网上爬了各种词库,并通过XX词典校验,挑选在XX词典中收录的(耗费相当多的精力)。此份Bigram


【文件预览】:
bigram.txt

网友评论

  • 不错,用于验证一些词语,虽然没法全部覆盖,但也不少了