文件名称:中英文分词组件--CSharp分词
文件大小:13.54MB
文件格式:RAR
更新时间:2013-09-08 03:08:13
分词
中英文分词组件。完全C#托管代码编写,独立开发。 技术特点 ========= 1. 识别率接近90%。 虽然和专业分词系统相比有一定的差距,但对于搜索引擎等小型分词需求而言足够了。 2. 多元歧义自动识别。 对于前后歧义有较好的识别效果。 如: 长春市长春节致词 -- 长春/市长/春节/致词/ 长春市长春药店 -- 长春市/长春/药店 3. 常用及敏感词过滤功能。 通过一个简单的属性设置就可以完成针对常用词、标点和敏感词汇的过滤。系统内置了常用无意字词和标点的过滤。当然针对文章等分词时可以屏蔽过滤功能。 4. 控制符过滤功能。 可以设置属性值,在分词结果中保留回车换行等控制字符,从而保留原来的显示结构。 5. 内置10万多条基本词库。 系统内置包含10万多条优选词汇的基本词库,并提供编程接口任意扩充。 6. 全角字符识别能力。 如:IBM和HP都是世界级的PC制造商。-- IBM/和/HP/都/是/世界级/的/PC/制造商/。 7. 轻量级的分词组件,仅1个DLL文件,无需安装注册,发布简便。
【文件预览】:
CSharp分词
----05_001518_wordseg.rar(710KB)
----05_001518_wordseg()
--------example.txt(137B)
--------Readme.txt(2KB)
--------Rainsoft.WordSeg.dll(852KB)
--------Rainsoft.WordSeg.chm(21KB)
----NDP1.1sp1-KB867460-X86.exe(10.21MB)
----04_083451_segment()
--------Rainsoft.WordSeg.dll(852KB)
--------Segment.exe(864KB)
----segment.rar(42KB)
----04_083451_segment.rar(698KB)
----url.txt(108B)