计算所汉语词法分析系统ICTCLAS

时间:2010-12-15 06:45:50
【文件属性】:

文件名称:计算所汉语词法分析系统ICTCLAS

文件大小:2.18MB

文件格式:RAR

更新时间:2010-12-15 06:45:50

分词 词性标注

词是最小的能够独立活动的有意义的语言成分,但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词法分析是中文信息处理的基础与关键。为此,中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐马模型的汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词识别能取得高于90%召回率,其中中国人名的识别召回率接近98%,分词和词性标注处理速度为543.5KB/s。
计算所汉语词法分析系统ICTCLAS同时还提供一套完整的动态连接库ICTCLAS.dll,COM组件和相应的概率词典,开发者可以完全忽略汉语词法分析,直接在自己的系统中调用ICTCLAS,ICTCLAS可以根据需要输出多个高概率的结果,输出格式也可以定制,开发者在分词和词性标注的基础上继续上层开发。
使用时请遵守《自然语言处理开放资源许可证》


【文件预览】:
Codes and ApplicationV1.2
----ICTCLAS_WIN.opt(52KB)
----Utility()
--------Utility.cpp(25KB)
--------ContextStat.h(3KB)
--------Dictionary.h(6KB)
--------Utility.h(7KB)
--------ContextStat.cpp(8KB)
--------Dictionary.cpp(37KB)
----ICTCLAS_Win.clw(2KB)
----res()
--------ICTCLAS_Win.rc2(403B)
--------ICTCLAS_Win.ico(1KB)
--------Thumbs.db(3KB)
----ICTCLAS_Win.dsp(6KB)
----ICTCLAS_WinDlg.h(2KB)
----ICTCLAS_Win.aps(38KB)
----ICTCLAS_WIN.sln(79B)
----Result()
--------Result.h(3KB)
--------Result.cpp(25KB)
----ICTCLAS_WIN.cpp(3KB)
----log.txt(39KB)
----Tag()
--------Span.h(4KB)
--------Span.cpp(29KB)
----ICTCLAS_WIN.dsw(545B)
----StdAfx.cpp(831B)
----ICTCLAS_WIN.suo(6KB)
----resource.h(1KB)
----Unknown()
--------UnknowWord.h(3KB)
--------UnknowWord.cpp(5KB)
----ICTCLAS_WinDlg.cpp(12KB)
----ICTCLAS_WIN.h(2KB)
----StdAfx.h(2KB)
----Segment()
--------Segment.h(3KB)
--------NShortPath.h(2KB)
--------Segment.cpp(22KB)
--------Queue.cpp(3KB)
--------DynamicArray.cpp(10KB)
--------Queue.h(3KB)
--------DynamicArray.h(3KB)
--------SegGraph.cpp(17KB)
--------SegGraph.h(3KB)
--------NShortPath.cpp(8KB)
----ICTCLAS_WIN.ncb(153KB)
----ICTCLAS_Win.plg(3KB)
----ICTCLAS_Win.rc(8KB)
----ReadMe.txt(4KB)
----Data()
--------BigramDict.dct(7.19MB)
--------tr.dct(63KB)
--------ns.ctx(408B)
--------nr.ctx(1KB)
--------ns.dct(53KB)
--------nr.dct(111KB)
--------tr.ctx(408B)
--------lexical.ctx(10KB)
--------coreDict.dct(1.49MB)

网友评论

  • 虽然版本旧了点 但是对于理解分词的原理有帮助
  • 不会用 ,学学吧
  • 不错,可是版本有些老了。
  • 用VC++6.0开发的,版本是有些老了,学习一下还是挺好的
  • 老版本也很好用,不错~
  • 很好,用起来不错,调试了一下才成功的
  • 版本有点老了,不过不耽误用~~~~
  • 用VC++6.0开发的,学习一下还是挺好的
  • 不知道为什么,一开始用的调用时没问题的,后来只要文章里面有单引号就报错,逼我把库里面的单引号识别给删掉。。 版本是有些老了,不过有代码很好啊
  • 老版本了。
  • 不知道为什么,一开始用的调用时没问题的,后来只要文章里面有单引号就报错,逼我把库里面的单引号识别给删掉。。
  • 用VC++6.0开发的,版本是有些老了,学习一下还是挺好的
  • 已下载!VC6.0上开发的。
  • 嗯好用,用VC++6.0开发的,版本是有些老了,不过有代码很好啊
  • 网上找了个ICTCLAS_Win 加入解压目录,刚好直接能用。