文件名称:百万级词库--分类词库
文件大小:12.21MB
文件格式:RAR
更新时间:2021-07-25 13:24:37
分词词库 自然语言处理
因工作需要,最近在做自然语言处理方面的研究,第一步需要实现中文分词,市面上有许多开源的分词组件,本人使用的是word分词,但这些开源组件中的词库都比较小,因此这段时间主要是在网上爬了各种词库,并通过XX词典校验,挑选在XX词典中收录的(耗费相当多的精力)。此份分类词库,包括财经、汽车、IT、数学、农业、动物、植物、成语、诗词、机构、地址、食物等
【文件预览】:
classify_sum
----dic_medical.txt(1.02MB)
----dic_person.txt(5.86MB)
----dic_base.txt(12.41MB)
----dic_chengyu.txt(641KB)
----dic_food.txt(97KB)
----dic_animal.txt(755KB)
----dic_literature.txt(769KB)
----dic_poem.txt(5.73MB)
----dic_law.txt(324KB)
----dic_E-business.txt(528KB)
----dic_finance.txt(417KB)
----dic_org.txt(4.6MB)
----dic_architecture.txt(89KB)
----dic_math.txt(185KB)
----dic_address.txt(3.2MB)
----dic_IT.txt(541KB)
----dic_plant.txt(656KB)
----dic_car.txt(23KB)
----dic_agriculture.txt(76KB)