文件名称:计算所汉语词法分析系统ICTCLAS
文件大小:2.18MB
文件格式:RAR
更新时间:2010-12-15 06:45:50
分词 词性标注
词是最小的能够独立活动的有意义的语言成分,但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词法分析是中文信息处理的基础与关键。为此,中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐马模型的汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词识别能取得高于90%召回率,其中中国人名的识别召回率接近98%,分词和词性标注处理速度为543.5KB/s。
计算所汉语词法分析系统ICTCLAS同时还提供一套完整的动态连接库ICTCLAS.dll,COM组件和相应的概率词典,开发者可以完全忽略汉语词法分析,直接在自己的系统中调用ICTCLAS,ICTCLAS可以根据需要输出多个高概率的结果,输出格式也可以定制,开发者在分词和词性标注的基础上继续上层开发。
使用时请遵守《自然语言处理开放资源许可证》
【文件预览】:
Codes and ApplicationV1.2
----ICTCLAS_WIN.opt(52KB)
----Utility()
--------Utility.cpp(25KB)
--------ContextStat.h(3KB)
--------Dictionary.h(6KB)
--------Utility.h(7KB)
--------ContextStat.cpp(8KB)
--------Dictionary.cpp(37KB)
----ICTCLAS_Win.clw(2KB)
----res()
--------ICTCLAS_Win.rc2(403B)
--------ICTCLAS_Win.ico(1KB)
--------Thumbs.db(3KB)
----ICTCLAS_Win.dsp(6KB)
----ICTCLAS_WinDlg.h(2KB)
----ICTCLAS_Win.aps(38KB)
----ICTCLAS_WIN.sln(79B)
----Result()
--------Result.h(3KB)
--------Result.cpp(25KB)
----ICTCLAS_WIN.cpp(3KB)
----log.txt(39KB)
----Tag()
--------Span.h(4KB)
--------Span.cpp(29KB)
----ICTCLAS_WIN.dsw(545B)
----StdAfx.cpp(831B)
----ICTCLAS_WIN.suo(6KB)
----resource.h(1KB)
----Unknown()
--------UnknowWord.h(3KB)
--------UnknowWord.cpp(5KB)
----ICTCLAS_WinDlg.cpp(12KB)
----ICTCLAS_WIN.h(2KB)
----StdAfx.h(2KB)
----Segment()
--------Segment.h(3KB)
--------NShortPath.h(2KB)
--------Segment.cpp(22KB)
--------Queue.cpp(3KB)
--------DynamicArray.cpp(10KB)
--------Queue.h(3KB)
--------DynamicArray.h(3KB)
--------SegGraph.cpp(17KB)
--------SegGraph.h(3KB)
--------NShortPath.cpp(8KB)
----ICTCLAS_WIN.ncb(153KB)
----ICTCLAS_Win.plg(3KB)
----ICTCLAS_Win.rc(8KB)
----ReadMe.txt(4KB)
----Data()
--------BigramDict.dct(7.19MB)
--------tr.dct(63KB)
--------ns.ctx(408B)
--------nr.ctx(1KB)
--------ns.dct(53KB)
--------nr.dct(111KB)
--------tr.ctx(408B)
--------lexical.ctx(10KB)
--------coreDict.dct(1.49MB)