C# 盘古分词下载

【文件属性】：

文件名称：C# 盘古分词

文件大小：3.04MB

文件格式：ZIP

更新时间：2014-11-17 07:23:37

C# 盘古分词 KTDictSeg 张勇涛

1、修改字典格式，提高字典加载速度 2、增加对英文专业名词的支持如C++,C#等只要加入字典就可以被分出来 3、增加词频判断功能，在无法取舍时根据词频取舍 4、增加优先优先词频选项，通过这个选项动态决定分词粒度需打开 FreqFirst 5、增加中文人名前后缀统计和根据该统计定位人名的功能 6、增加中文人名和未登录词出现频率统计功能 7、增加自动更新字典功能，对超过阈值的人名和未登录词自动插入字典需打开 AutoInsertUnknownWords 开关并设置 UnknownWordsThreshold，(不推荐自动插入，推荐手工插入) 8、增加定期保存字典和统计结果功能需设置 AutoSaveInterval 9、增加KTDictSeg.xml配置文件来配置分词参数 10、增加对Lucene.net 的支持，提供 KTDictSegAnalyzer 分析器给Lucene.net 11、增加字典管理功能，可以添加删除修改字典 12、字典管理中提供从未登录词中批量插入字典功能，可帮助使用者手工选择合适的未登录词插入字典（推荐） 13、提供一个新闻搜索的简单例子，采用Lucene.net+KTDictSegAnalyzer+KTDictSeg,项目名为Demo.KTDictSegAnalyzer 14、将所有ArrayList 改为List<> 其中 src_V1.3.01是源码 rel_V1.3.01 包含所有的可执行文件，配置文件；Data目录下是词库，停用词表，以及我目前统计的人名前后缀词表；News 目录下是Lucene.net为新闻搜索的例子建的索引。 News.zip 是上图中批量插入时要输入的XML文件，它包含3万条从新浪和中华网抓下来的过时的新闻，大约2000万字左右，可供各位朋友学习使用。注意：如果要导入news.xml，这个文件必须要和Demo.KTDictSegAnalyzer.exe放在同一个目录下！

立即下载

秒客网

C# 盘古分词

网友评论

相关文章