文件名称:基于编辑距离的中文组织机构名简称-全称匹配算法 (2012年)
文件大小:536KB
文件格式:PDF
更新时间:2024-06-01 01:41:52
自然科学 论文
在面对中文语言环境下组织机构名简称-全称匹配这一具体问题时,经典的基于编辑距离进行字符串相似匹配方法的实用性有所下降。基于编辑距离的思想,提出了一种改进匹配算法:首先对简称和全称进行分词,以切合中文的语法结构特点;之后结合重定义的词汇语义相似度度量方法,修改编辑操作权重,并通过自适应学习的方式进一步修正;最后选择与简称编辑距离最小的全称作为匹配结果。实验结果表明,该算法匹配准确率比原始方法有较大提升。