文件名称:中科院分词器ICTCLAS,编译版(64bit)
文件大小:5.36MB
文件格式:GZ
更新时间:2016-12-12 11:21:41
分词器
中科院分词器ICTCLAS,已经实现了二进制程序,有相关的代码,运行比较简单,执行wordseg infile outfile就可以,可以用于对word2vec需要的语料进行分词
【文件预览】:
segment
----Example-C.cpp(3KB)
----wordseg(45KB)
----Makefile(172B)
----includes()
--------NLPIR.h(20KB)
----Data()
--------GBKC.wordlist(163KB)
--------NLPIR_First.map(288B)
--------UserDict.pdat(1KB)
--------nr.role(1.68MB)
--------UTF2GBK.map(279KB)
--------FieldDict.pdat(256KB)
--------UTF8.pdat(544KB)
--------UTF8.wordlist(186KB)
--------FieldDict.pos(72B)
--------BIG5.pdat(457KB)
--------GBK.pdat(536KB)
--------PKU_First.map(288B)
--------GBKC.pdat(538KB)
--------GBK2BIG.map(279KB)
--------NLPIR.user(3KB)
--------BIG5.wordlist(155KB)
--------GBK2UTF.map(279KB)
--------nr.ctx(2KB)
--------ICTPOS.map(406B)
--------charset.type(64KB)
--------NLPIR.ctx(36KB)
--------nr.fsa(3KB)
--------BIG2GBK.map(279KB)
--------CoreDict.pos(1.7MB)
--------GBKA.wordlist(163KB)
--------GBKC2GBK.map(279KB)
--------GranDict.pos(1.7MB)
--------Configure.xml(856B)
--------GBKA2UTF.map(279KB)
--------NewWord.lst(126B)
--------BiWord.big(3.36MB)
--------GBK2GBKC.map(279KB)
--------GranDict.pdat(1.89MB)
--------GBK.wordlist(163KB)
--------PKU.map(307B)
--------GBKA.pdat(538KB)
--------UTF2GBKA.map(279KB)
--------CoreDict.pdat(1.62MB)
--------CoreDict.unig(467KB)
----libs()
--------libNLPIR.so(1.73MB)