大规模句子相似度计算方法

时间:2023-03-28 05:41:15
【文件属性】:

文件名称:大规模句子相似度计算方法

文件大小:62KB

文件格式:PDF

更新时间:2023-03-28 05:41:15

相似度数据 相似度算法 基于实例的机器翻译 多策略机器翻译 泛化匹配

如何根据源语言文本从大规模语料库中找出其最相近的翻译实例,即句子相似度计算,是基于 实例翻译方法的关键问题之一。本文提出一种多层次句子相似度计算方法:首先基于句子的词表层特征和 信息熵从大规模语料库中选择出少量候选实例,然后针对这些候选实例进行泛化匹配,从而计算出相似句 子。在多策略机器翻译系统IHSMTS 中的实验表明,当语料规模为20 万英汉句对时,系统提取相似句子 的召回率达96%,准确率达90%,充分说明了本文算法的有效性。


网友评论