中科院分词器ICTCLAS,编译版(64bit)

时间:2016-12-12 11:21:41
【文件属性】:

文件名称:中科院分词器ICTCLAS,编译版(64bit)

文件大小:5.36MB

文件格式:GZ

更新时间:2016-12-12 11:21:41

分词器

中科院分词器ICTCLAS,已经实现了二进制程序,有相关的代码,运行比较简单,执行wordseg infile outfile就可以,可以用于对word2vec需要的语料进行分词


【文件预览】:
segment
----Example-C.cpp(3KB)
----wordseg(45KB)
----Makefile(172B)
----includes()
--------NLPIR.h(20KB)
----Data()
--------GBKC.wordlist(163KB)
--------NLPIR_First.map(288B)
--------UserDict.pdat(1KB)
--------nr.role(1.68MB)
--------UTF2GBK.map(279KB)
--------FieldDict.pdat(256KB)
--------UTF8.pdat(544KB)
--------UTF8.wordlist(186KB)
--------FieldDict.pos(72B)
--------BIG5.pdat(457KB)
--------GBK.pdat(536KB)
--------PKU_First.map(288B)
--------GBKC.pdat(538KB)
--------GBK2BIG.map(279KB)
--------NLPIR.user(3KB)
--------BIG5.wordlist(155KB)
--------GBK2UTF.map(279KB)
--------nr.ctx(2KB)
--------ICTPOS.map(406B)
--------charset.type(64KB)
--------NLPIR.ctx(36KB)
--------nr.fsa(3KB)
--------BIG2GBK.map(279KB)
--------CoreDict.pos(1.7MB)
--------GBKA.wordlist(163KB)
--------GBKC2GBK.map(279KB)
--------GranDict.pos(1.7MB)
--------Configure.xml(856B)
--------GBKA2UTF.map(279KB)
--------NewWord.lst(126B)
--------BiWord.big(3.36MB)
--------GBK2GBKC.map(279KB)
--------GranDict.pdat(1.89MB)
--------GBK.wordlist(163KB)
--------PKU.map(307B)
--------GBKA.pdat(538KB)
--------UTF2GBKA.map(279KB)
--------CoreDict.pdat(1.62MB)
--------CoreDict.unig(467KB)
----libs()
--------libNLPIR.so(1.73MB)

网友评论

  • 这个可以有,代码试过可以用的
  • 又一次下载了,不能用。、
  • 很好 可以可
  • 谢谢分享,很有用,学习一下
  • 谢谢分享,学习使用
  • 这个资源不错
  • 权限过期,已经不能用了
  • .net 版本 没有帮助,啊
  • 不知道怎么用,后来还是在32位电脑上运行的原有程序
  • 这个资源不错,推荐下载
  • 这个资源可以用,推荐使用