文件名称:ShootSearch 中文分词组件(c#开源)
文件大小:978KB
文件格式:RAR
更新时间:2009-09-07 09:19:18
c# C#类 中文 分词 开源
ShootSearch 中文分词组件(c#开源) 技术支持:support@shootsoft.net http://www.shootsoft.net 分词算法:词库+最大匹配 词库来自www.jesoft.cn,已经过一定的修改 使用说明: 先加载词库,再进行分词.分词过程重载两次:支持回车的和不支持回车的,注意选择! 可以手动添加词语到sDict.txt,不过每次手动修改后需要调用SortDic()方法,否则无法实现最大匹配! sDict.txt的编码为UTF-8! 示例: 文字内容来自:http://tech.tom.com/2006-08-09/04B5/34545343.html using ShootSeg; ... Segment seg = new Segment(); seg.InitWordDics(); string str="日前,奇虎董事长周鸿祎新推出了一款反流氓软件“360安全卫士”,并将雅虎中国3721网络实名定义为流氓软件。此举引起了雅虎员工的强烈不满,甚至有就职于雅虎的原3721员工声称将起诉周鸿祎。围绕着3721这个产品,引发了一场雅虎中国与奇虎之间的战争。"; seg.Separator = "/"; Console.WriteLine(seg.SegmentText(str.Text,true)); 日前/,/奇虎/董事长/周鸿祎/新/推出/了/一款/反/流氓/软件/“/360/安全/卫士/”/,/并将/雅虎/中国/3721/网络实名/定义/为/流氓/软件/。/此举/引起/了/雅虎/员工/的/强烈不满/,/甚至有/就职/于/雅虎/的/原/3721员/工/声称/将/起诉/周鸿祎/。/围绕着/3721/这个/产品/,/引发/了/一场/雅虎/中国/与/奇虎/之间/的/战争/。/ 不加人名识别效果如下: 日前/,/奇/虎/董事长/周/鸿/祎/新/推出/了/一款/反/流氓/软件/“/360/安全/卫士/”/,/并将/雅虎/中国/3721/网络实名/定义/为/流氓/软件/。/此举/引起/了/雅虎/员工/的/强烈不满/,/甚至有/就职/于/雅虎/的/原/3721员/工/声称/将/起诉/周/鸿/祎/。/围绕着/3721/这个/产品/,/引发/了/一场/雅虎/中国/与/奇/虎/之间/的/战争/。/ 2006-8-9----1.0 bate 060809 支持英文、数字、中文(简体)混合分词 常用的数量和人名的匹配 超过22万词的词库整理 实现正向最大匹配算法 智能数字,日期,人名识别
【文件预览】:
ShootSeg.sln
使用说明.txt
效果.txt
SegTest
----AssemblyInfo.cs(2KB)
----obj()
--------Debug()
----bin()
--------Debug()
----App.ico(1KB)
----Form1.cs(7KB)
----SegTest.csproj.user(2KB)
----Form1.resx(10KB)
----SegTest.csproj(5KB)
test2.txt
ShootSeg
----AssemblyInfo.cs(2KB)
----obj()
--------Debug()
----bin()
--------Debug()
----ShootSeg.csproj(4KB)
----ShootSeg.csproj.user(2KB)
----Segment.cs(21KB)
----SegList.cs(2KB)
ShootSeg.suo
test1.txt