Jcseg中文分词器-其他

时间:2024-07-02 01:23:19
【文件属性】:

文件名称:Jcseg中文分词器-其他

文件大小:4.95MB

文件格式:ZIP

更新时间:2024-07-02 01:23:19

Jcseg 中文分词 java中文分词

Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr,elasticsearch的分词接口!Jcseg自带了一个jcseg.properties文件用于快速配置而得到适合不同场合的分词应用,例如:最大匹配词长,是否开启中文人名识别,是否追加拼音,是否追加同义词等! Jcseg核心功能: 1、中文分词:mmseg算法 + Jcseg 独创的优化算法,七种切分模式。 2、关键字提取:基于textRank算法。 3、关键短语提取:基于textRank算法。 4、关键句子提取:基于textRank算法。 5、文章自动摘要:基于BM25+textRank算法。 6、自动词性标注:基于词库+(统计歧义去除计划),目前效果不是很理想,对词性标注结果要求较高的应用不建议使用。 7、命名实体标注:基于词库+(统计歧义去除计划),电子邮件,网址,大陆手机号码,地名,人名,货币,datetime时间,长度,面积,距离单位等。 8、Restful api:嵌入jetty提供了一个绝对高性能的server模块,包含全部功能的http接口,标准化json输出格式,方便各种语言客户端直接调用。


网友评论