机器翻译
一,机器翻译概论
概念:机器翻译是用计算机把一种语言翻译成另一种语言的一门科学和技术。
机器翻译的困难
-
自然语言中普遍存在的歧义和未知现象。
- 句法结构歧义、词汇歧义、语用歧义
- 新的词汇、术语、结构和语义
-
机器翻译不仅仅是字符串的转换。
-
机器翻译的解不唯一,而且始终存在的人为的标准。
基本翻译方法
1,直接转换法
2,基于规则的翻译方法
步骤如下:
- 对源语言句子进行词法分析
- 对源语言句子进行句法和语义分析
- 源语言句子结构到译文结构的转换
- 译文句法结构生成
- 源语言词汇到译文词汇的转换
- 译文词法选择与生成
它的执行过程为:独立分析独立生成相关转换。
因此,又称为基于转换的翻译方法。
3,基于中间语言的翻译方法
方法:输入句子中间语言翻译结果。
- 源语言解析器
- 比较准确的中间语言
- 目标语言生成器
4,基于语料库的翻译方法
-
基于事例的翻译方法
-
统计翻译方法
-
神经网络翻译方法
5,基本翻译方法体系
二,统计机器翻译
统计翻译的思想:
1,统计机器翻译的基本原理
噪声信道模型
其中为目标语言模型,为翻译模型。
1,语言模型
直接使用n-gram语言模型即可。
2,翻译概率的计算
关键问题:怎样定义目标语言句子中的词与源语言句子中的词之间的对应关系。
这就需要对位模型(alignment model)了。
将对位模型视为隐变量,则:
详见纸质版。
统计机器翻译模型方法的体系如下图所示:
三,译文评估方法
常用评测指标:
-
主观评测
- 流畅度
- 充分性
- 语义保持性
-
客观评测
-
句子错误率:错误句子占全部译文的比率。
-
单词错误率:计算译文与每个参考译文的编辑距离,以最短的为评分依据,进行归一化处理。
-
与位置无关的单词错误率:不考虑单词在句子中的顺序
-
METEOR评测方法:对候选译文与参考译文进行词对齐,计算词汇完全 匹配、词干匹配、同义词匹配等各种情况的准确率 §、召回率®和F平均值 。
-
BLEU:将机器翻译产生的候选译文与人翻译的多个参考译文相比较,越接近,候选译文的正确率越高。
实现方法:统计同时出现在系统译文和参考译文中的n元词 的个数,最后把匹配到的n元词的数目除以系统译文 的n元词数目,得到评测结果。
BLEU 分值范围:0 ~ 1,分值越高表示译文质量越好,分值越小,译文质量越差。
-
NIST评测方法:NIST评分值为不小于0的实数,0分表示译文质量最差。
-
四,神经网络机器翻译
神经机器翻译采用编码解码网络,简单有效,已逐渐取代统计机器翻译,成为主流研究范式。
神经网络翻译仍然面临诸多问题:
- 缺乏可解释性
- 难利用先验知识、语言相关知识
- 训练、测试复杂度高
- 领域、场景迁移性能差
五,语音翻译
关键模块:
- 语音识别
- 语言理解与翻译
- 语音合成
- 知识库