【文件属性】:
文件名称:编辑距离方法-iso-14229统一诊断服务uds.pdf
文件大小:277KB
文件格式:PDF
更新时间:2021-06-02 14:37:25
中文句子 相似度计算算法
2.3词形与词序结合的方法
这种方法认为句子相似度是由词形相似度和词序相似度两部分
共同决定的,其中词形相似度起主要作用,词序相似度起次要作用。计
算过程如下:
2.3.1词形相似度
设句子x的长度为句子中单词的个数,记为Zen(X)。SameWC(A,B)
表示句子A、B中相同单词的个数.当一个单词在A、B中出现的次数
不同时,以出现次数少的计数。则句子A、B的词形相似度计算如下:
WordSim(A,B)=2x器器(3)
2.3.2词序相似度
令OnceWS(A。B)表示A、B中都出现且只出现一次的单词集合。
Pfirst(A。B)表示OnceWS(A,B)的单词在A中的位置序号构成的向量。
Psecond(A,B)表示Pfirst(A,B)中的分量按对应单词在B中的词序排列
生成的向量。RevOrd(A。B)表示Psecond(A,B)各相邻分量的逆序数。则
A、B的词序相似度由下式决定:
f t一可RevOrd(A剧,BI)OnceWS(A=『卅‰e矽跗,印|>ll‘J ,曰Jl—J ⋯⋯⋯1‘⋯”’‘
Or渤t(A,曰)21’ 1⋯ ,10,lceWS(A驯:1(4)
l 0 厂|OnceWS(A,别I=o
2.3.3句子相似度的计算
句子A和B的相似度计算公式如下:$im(A,曰)_A.xWordSim(A.
B)+2t,xOrdSim(A。B) (5)
其中,~和k是常数,并且满足xl+k=l。显然有O≤WordSim(A,
曰)≤1.D≤OrdSim(A。B)≤l,O≤Sim(A,B)≤1。另外,由于词形相似度
起主要作用,词序相似度起次要作用,所以要求~≥k。
该方法的优点是对于句子中的一个分句或短语发牛长距离移动
后。仍然会与原句子非常相似;综合考虑了句子的结构和相同词语的
数量对相似度的影响;算法实现简单,复杂度较低。但是.该方法基于
词与词之间的词形旺配.没有考虑语义信息,也没有区分不同词性的
词语对句子的不同影响.经常会出现语义相似的句子相似度结果却较
低的不合理现象。
2.4依存树方法
语句相似度计算应该既要考虑对比句子的结构信息和词汇语义
信息.又要力图避免句法分析所带来的高难度和高复杂度,基于该思
想,穗志方于1998年首先提出了基于骨架依存树的语句相似度计算
模趔IS],即只分析出句子的整体句法结构。其中.整体句法结构用句子
的谓语中心词及其直接支配成分来表示,分析结果可看作一棵简化了
的依存树,称为骨架依存树。骨架依存树仅限两层,第一层为根结点,
即句子的谓语中心词,第二层为叶结点,是句中谓语中心词的直接支
配成分;另外。还需要标注出谓语中心词与其直接支配成分之间存在
的依存关系和相对位置。李彬在2003年也提出了一种基于语义依存
的汉语句子相似度计算方法搠,该方法把语义与依存文法分析结合起
来,有效地刻画了句子的表达意思。在计算依存树之间的相似度时.并
没有匹配所有的搭配对.而是计算那些有效搭配对之间的相似程度,
有效降低了计算的时间复杂度。
依存树方法基于对句子的句法结构分析,理论上是一种较好的计
算模型。但是,目前对句子各成分之间的依存关系分析准确率还不高。
其中,第一种方法采取了人机交互方式.要求用户对自动执行的依存
分析结果进行确认或作必要的修改。第二种方法所采用的分析器对依
存弧的标记准确率只有86%。相似度计算基础的不牢固导致该类方法
难以取得较高的准确率,实际应用性不强。
2.5编辑距离方法
编辑距离指从一个以字符为单位的字符串转换为另一个字符串
所需要的最小编辑操作的代价数。标准的编辑操作有“插入”、“删除”
和“替换”三种。编辑距离最初面向的是不考虑语义的字符处理.在字
符串相似度计算、自动文摘、拼写检查、图象识别、音乐识别、语音识
别、数据清理等众多领域都有着广泛地应用。在汉语句子的相似度计
算方面,也取得了一些成果,如车万翔利用改进编辑距离进行中文相
似句子的检索110l,G.Leusch利用编辑距离计算句子相似度并用于机器
翻译的评价1121。
该方法的主要思想是:以普通编辑距离算法为基础.采用词语取
代单个的汉字或字符作为基本的编辑单元参与运算,加入了词语的语
义相似信息确定词语之间的替换代价.并适当降低插入.删除操作的
代价,使之更加符合中文句子相似度计算的要求。改进编辑距离方法
与单纯基于语义辞典的句子相似度计算方法相比。具有便于扩展、准
确率高等优点。但是现有的研究还存在以下问题:首先,句子中不同的
词语对整体的贡献并不一致;其次,汉语句子中经常会出现短语移位
现象,增加交换操作将符合汉语的特点:另外,现有研究一般没有考虑
归一化问题。单纯凭借编辑距离的大小对句子的相似与否做出判断有
时并不准确。
3.结论
句子相似度计算是自然语言处理领域中比较重要的研究课题.有
着非常广泛的应用,直接决定某些领域的发展。本文介绍了中文句子
相似度计算存在的特点和难点。分析了当前常用的中文句子相似度计
算方法的优点以及存在的问题。通过以上分析可以看出,对中文句子
相似度计算的研究目前还处于一个起始阶段.对于中文问句相似度计
算来说,如何利用汉语句子自身的特点。综合考虑问句的结构关系和
词的语义信息来进行句子相似度计算的研究是关键,是进一步深入研
究句子相似度算法的主要方向。
。
【参考文献】
[1】Chatterjee,Niladri.A Statistical Approach for Similarity Measurement between
Sentences for EBMT[A】.In Proceedings of Symposium 011 Translation Support
systems(STRANS一2001)[C】.2001.
[2]姚天顺,朱靖波,张俐,杨莹.自然语言理解——种让机器懂得人类语言的研
究(第二版)[M].北京:清华大学出版社,2002.
[3]吴市德,罗航哉,薛向阳.基于多重倒排文件的快速相似性检索[J】.计算机学
报,2000,23(1 1):1 156-1 160.
[4】余iE涛,高盛祥,纪鹏程.RDAQAS中同句相似度计算方法研究[J】昆明理工大
学学报(理工版).2004,29(2):40—71.
[5]吕学强,任飞亮,黄志丹。姚天顺.句子相似模型和最相似句子查找算法[J].东
北大学学报(自然科学版),2003,24(6):531—534.
[6ILl Sujian,Zhang Jian,Huang Xiong,et a1.Semantic computation in a Chinese
quest!on—answering system[J]Joumal of Computer Science and Technology'2002,
17(6):933—939.
[7]崔桓,蔡东风,苗雪雷.基于网络的中文问答系统及信息抽取算法研究cJ].
中文信息学报,2004。18 f3):24-31.
[8】穗志方,俞士汶.基于骨架依存树的语句相似度计算模型[A】.中文信息处理
国际会议(ICClr"98)[C],北京,1998.
[9]李彬,刘挺,秦兵.李生.基于语义依存的汉语句子相似度计算[J].计算机应用
研究,2003,12f12):15—17.
[io]车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术
通讯,2004,(7):15—19.
[11]丁丰。袁保宗.基于编辑距离的结构模式方法[J].铁道学报'200l,23(1):112一
ll 4.
[12]G.Lemh,N.Ueffing.H.Ney.A novel string—to-suing distance meBJ4ure诵tll
a仰lieations to㈣hine tramlation evaluation【A1.Machine Tmnslmion Summit 1X
[C].New Orleans,t“siana,13SA,2003.
作者简介:贾宗福(196卜),教授,礓士研究生导师。现任唔尔滨学院教学
与计算机学院、软件学院院长,黑龙江省计算机基础教育研究套常务剐理事长、
秘书长。研究方向为计算机应用技术、计算机教育。
资助项目
[责任编辑:张慧】
万方数据