基于改进PMI和最小邻接熵结合策略的未登录词识别下载

【文件属性】：
文件名称：基于改进PMI和最小邻接熵结合策略的未登录词识别
文件大小：1.09MB
文件格式：PDF
更新时间：2021-05-06 12:16:24
中文分词未登录词识别改进PMI算法邻接熵中文分词是中文自然语言处理的重要任务, 其目前存在的一个重大瓶颈是未登录词识别问题. 该文提出一种非监督的基于改进PMI和最小邻接熵结合策略的未登录词识别方法. 滤除文本中无关识别的标点符号和特殊字符后, 此方法先运用改进PMI算法识别出文本中凝聚程度较强的字符串, 并通过停用词词表和核心词库的筛选过滤, 得到候选未登录词; 然后, 计算候选未登录词的最小邻接熵, 并依据词频-最小邻接熵判定阈值, 确定出文本中的未登录词. 通过理论及实验分析, 此方法对不同的文本, 在不需要长时间学习训练调整参数的情况下, 即可生成个性化的未登录词词典, 应用于中文分词系统后, 其分词正确率、召回率分别达到81.49%、80.30%.

立即下载

秒客网

基于改进PMI和最小邻接熵结合策略的未登录词识别

网友评论

相关文章