ShootSearch 中文分词组件(c#开源)

时间:2009-09-07 09:19:18
【文件属性】:
文件名称:ShootSearch 中文分词组件(c#开源)
文件大小:978KB
文件格式:RAR
更新时间:2009-09-07 09:19:18
c# C#类 中文 分词 开源 ShootSearch 中文分词组件(c#开源) 技术支持:support@shootsoft.net http://www.shootsoft.net 分词算法:词库+最大匹配 词库来自www.jesoft.cn,已经过一定的修改 使用说明: 先加载词库,再进行分词.分词过程重载两次:支持回车的和不支持回车的,注意选择! 可以手动添加词语到sDict.txt,不过每次手动修改后需要调用SortDic()方法,否则无法实现最大匹配! sDict.txt的编码为UTF-8! 示例: 文字内容来自:http://tech.tom.com/2006-08-09/04B5/34545343.html using ShootSeg; ... Segment seg = new Segment(); seg.InitWordDics(); string str="日前,奇虎董事长周鸿祎新推出了一款反流氓软件“360安全卫士”,并将雅虎中国3721网络实名定义为流氓软件。此举引起了雅虎员工的强烈不满,甚至有就职于雅虎的原3721员工声称将起诉周鸿祎。围绕着3721这个产品,引发了一场雅虎中国与奇虎之间的战争。"; seg.Separator = "/"; Console.WriteLine(seg.SegmentText(str.Text,true)); 日前/,/奇虎/董事长/周鸿祎/新/推出/了/一款/反/流氓/软件/“/360/安全/卫士/”/,/并将/雅虎/中国/3721/网络实名/定义/为/流氓/软件/。/此举/引起/了/雅虎/员工/的/强烈不满/,/甚至有/就职/于/雅虎/的/原/3721员/工/声称/将/起诉/周鸿祎/。/围绕着/3721/这个/产品/,/引发/了/一场/雅虎/中国/与/奇虎/之间/的/战争/。/ 不加人名识别效果如下: 日前/,/奇/虎/董事长/周/鸿/祎/新/推出/了/一款/反/流氓/软件/“/360/安全/卫士/”/,/并将/雅虎/中国/3721/网络实名/定义/为/流氓/软件/。/此举/引起/了/雅虎/员工/的/强烈不满/,/甚至有/就职/于/雅虎/的/原/3721员/工/声称/将/起诉/周/鸿/祎/。/围绕着/3721/这个/产品/,/引发/了/一场/雅虎/中国/与/奇/虎/之间/的/战争/。/ 2006-8-9----1.0 bate 060809 支持英文、数字、中文(简体)混合分词 常用的数量和人名的匹配 超过22万词的词库整理 实现正向最大匹配算法 智能数字,日期,人名识别
【文件预览】:
ShootSeg.sln
使用说明.txt
效果.txt
SegTest
----AssemblyInfo.cs(2KB)
----obj()
--------Debug()
----bin()
--------Debug()
----App.ico(1KB)
----Form1.cs(7KB)
----SegTest.csproj.user(2KB)
----Form1.resx(10KB)
----SegTest.csproj(5KB)
test2.txt
ShootSeg
----AssemblyInfo.cs(2KB)
----obj()
--------Debug()
----bin()
--------Debug()
----ShootSeg.csproj(4KB)
----ShootSeg.csproj.user(2KB)
----Segment.cs(21KB)
----SegList.cs(2KB)
ShootSeg.suo
test1.txt

网友评论

  • 可以运行,但是还没有移植过去。
  • 分词效果还可以
  • 分词效果还可以
  • 可以运行,分词效果也很好
  • 挺好,可以使用
  • 可以运行,速度有点慢
  • 资源不错,分词挺好的,感谢分享。
  • 代码可以运行,分词效果还行
  • 分词的思路还不错,如果能够动态的拓展词库就完美了
  • 分词效果还行,可以使用
  • 分词效果还可以
  • 不错,能实现我要的效果
  • 代码可以运行,分词效果还可以,值得下载。
  • 分词效果很好,代码也很清晰。。。
  • 分词效果还不错,但是做得有点太粗糙了,谢谢!
  • 分词这东西不容易做。各种文字组合太多。
  • 分词效果还好,有一些混合词匹配不是很好。
  • 资源还不错,代码还行,主要是搜集的词汇挺多的谢谢了。
  • 好东西,思路挻好
  • 好东西,看过学到不少,
  • 在垃圾邮件方面用了一下,分词效果其实一般。。。
  • 很简单的、很强大的工具
  • 代码已经看过还行!
  • 分词效果还不错,但是做得有点太粗糙了,谢谢!
  • 好东西,分的很对
  • 呵呵,,地区的分词,做的还不够细致,不过使用起来很好啦,谢谢
  • 不错,值得参考的代码
  • 好东西,思路挻好,但还需要优化。
  • 用过 盘古分词,对于免费的分词组件,这个分词情况还行吧
  • 用来做分词,确实好用,就是不能通过文件来进行分词。