文件名称:论文研究-中文合成词识别及分词修正.pdf
文件大小:307KB
文件格式:PDF
更新时间:2022-08-11 12:38:01
合成词,词共现有向图,词性标注,分词修正,自然语言处理
提出一种中文合成词识别及分词修正方法。该方法先采用词性探测从文本中提取词串,进而由提取到的词串生成词共现有向图,借鉴Bellman-Ford算法思想,设计了运行在词共现有向图中识别合成词的算法,即搜索多源点长度最长、权重值满足给定条件的路径,则该路径所对应的词串为合成词。最后,采用核心属性渗透理论对合成词标注词性,同时修正分词结果。实验结果表明,合成词识别正确率达到了91.60%,且分词修正效果良好。