【文件属性】:
文件名称:Ansj中文分词
文件大小:43.84MB
文件格式:ZIP
更新时间:2018-07-30 07:44:45
分词 命名实体识别
Ansj中文分词是一个完全开源的、基于Google语义模型+条件随机场模型的中文分词的Java实现,具有使用简单、开箱即用等特点。
Ansj分词速度达到每秒钟大约100万字左右(Mac Air下测试),准确率能达到96%以上。
Ansj 1.41版本的新增功能
•增加了调用文档说明
•调整了关键词抽取
•增加了摘要计算
•关键词标红
•大幅度提高了命名实体识别
•对于词性标注提供了基于概率的快速标注方式.依旧保留给予隐马模型的词性标注.
•修复了目前已知的所有bug
•大量修正了之前默认用户自定义词典中词性错误
•提供了给予crf++ wapiti等条件随即场工具的调用接口.用户可以及自定义训练model
•增加了目前对最新版的Lucene、Solr、Elasticsearch开源第三方搜索框架的分词插件
效果测试——新词发现
引用
1. 未登陆词识别
example:NER:我要碎觉吊丝要小心!城西嘉南公寓
result:命名/v 实体/n ner/en : 我/r 要/v 碎觉/nw 吊丝/n 要/v 小心/v !/w 城西嘉南公寓/nw
2. 中文人名识别
example:NER: 邓颖超生前和刘晓辉同学合影, 李民工作了一天
result:邓颖超/nr 生前/t 和/c 刘晓辉/nr 同学/n 合影/v , 李民/nr 工作/vn 了/ul 一天/m
3. 外国人名识别
example:NER:本赛季德甲球队霍芬海姆的两名年轻球员菲尔米诺和福兰德表现出色,但球队主帅吉斯多尔态度强硬。
result:本赛季/n 德甲/n 球队/n 霍芬海姆/nrf 的/uj 两名/m 年轻/a 球员/n 菲尔米诺/nrf 和/c 福兰德/nr 表现出色/n ,/w 但/c 球队/n 主帅/n 吉斯多尔/nrf 态度强硬/n 。/w
网友评论
- 挺好的挺好的挺好的
- 很好的资源~