文件名称:开源ICTCLAS的改进版
文件大小:8.59MB
文件格式:ZIP
更新时间:2015-01-03 05:45:21
中文分词 ICTCLAS VC 源码
基于开源的ICTCLAS1.1作的改进。 为改善运行速度,程序结构变动较大,重定义了核心字典的结构。未登录词字典用Hash方式,同Viterbi数据合并保存。重写了最小路径算法,分词的中间数据结构也重新进行了调整。总体而言代码的结构要清晰得多了。改进后分词速度大致提高二十倍左右。准确率变动不大。
【文件预览】:
CictCtrl
----ictCtrl.vcxproj(9KB)
----ictCtrl.vcxproj.user(143B)
----ictCtrl.sln(878B)
----resource.h(2KB)
----ictCtrl.vcproj(7KB)
----ictCtrlDlg.h(1KB)
----ictCtrlDlg.cpp(20KB)
----ictCtrl.aps(59KB)
----stdafx.h(3KB)
----ReadMe.txt(3KB)
----ictCtrl.suo(224KB)
----res()
--------ictCtrl.ico(21KB)
--------ictCtrl.rc2(363B)
----ictCtrl.vcproj.BOTTLEBOXPC.Administrator.user(1KB)
----ictCtrl.exe(440KB)
----stdafx.cpp(134B)
----ictCtrl.rc(7KB)
----ictCtrl9.vcproj(7KB)
----CICT()
--------Segment.h(3KB)
--------ContextStat.h(2KB)
--------Segment.cpp(22KB)
--------Viterbi.h(3KB)
--------PathFind.cpp(18KB)
--------CutSentence.h(5KB)
--------Utility.h(9KB)
--------Span.h(4KB)
--------UnknowWord.h(3KB)
--------ContextStat.cpp(8KB)
--------Dict.h(3KB)
--------CutSentence.cpp(28KB)
--------PathFind.h(7KB)
--------Viterbi.cpp(6KB)
--------UnknowWord.cpp(21KB)
--------PersonName.h(762B)
--------PersonName.cpp(11KB)
--------Span.cpp(47KB)
--------Dict.cpp(9KB)
--------Result.cpp(17KB)
--------Dictionary.cpp(26KB)
--------PosTag.cpp(8KB)
--------Utility.cpp(23KB)
--------BaseDefine.h(1018B)
--------PosTag.h(1KB)
--------SegGraph.cpp(2KB)
--------Dictionary.h(8KB)
--------SegGraph.h(8KB)
--------Result.h(3KB)
----ictCtrl.vcproj.PC-201110091113.Admzz.user(1KB)
----data()
--------nrPos.dat(78KB)
--------test.txt(11KB)
--------lexicalPos.dat(6KB)
--------BigramDict.dct(7.19MB)
--------stopwords.txt(5KB)
--------Test()
--------nsPos.dat(28KB)
--------coreDict.dic(1.42MB)
--------trPos.dat(35KB)
----ictCtrl.h(447B)
----UpgradeLog.XML(2KB)
----ictCtrl.vcxproj.filters(4KB)
----ictCtrl.cpp(2KB)
----理论资料()
--------基于N-最短路径方法的中文词语粗分模型-0527.doc(111KB)
--------第6章隐马尔柯夫模型第6章隐马尔柯夫模型.pdf(764KB)
--------基于层叠隐马模型的汉语词法分析.pdf(410KB)
--------ICTCLAS学习笔记.pdf(521KB)
--------第9章句法分析.pdf(1.03MB)