《BLEU: a Method for Automatic Evaluation of Machine Translation》翻译-4. 人类评估

我们有两组人类评审。第一组称为单语组，由 10 名以英语为母语的评审组成。第二组称为双语组，由 10 名以中文为母语且在过去几年中生活在美国的评审组成。这些人类评审中没有一位是专业翻译员。人类评审对我们 5 个标准系统的中文句子子集进行了评估，这些句子是从我们的 500 句测试语料库中随机抽取的。我们将每个源句子与其 5 个翻译配对，总共形成 250 对中文源句和英文翻译对。我们准备了一个包含这些翻译对的网页，这些翻译对被随机排序，以分散每个源句子的五个翻译。所有评审都使用同一个网页，并按照相同的顺序查看句子对。他们对每个翻译进行评分，评分范围从1（非常差）到5（非常好）。单语组的评审仅根据翻译的可读性和流畅性进行判断。

正如预期的那样，有些评审比其他评审更宽松，而有些句子比其他句子更容易翻译。为了考虑评审和句子之间的固有差异，我们比较了每个评审在各系统中对同一句子的评分。我们对按其总体平均得分排序的相邻系统进行了四次成对 t 检验比较。

4.1 单语组配对判断

图3 显示了两个连续系统得分之间的平均差异及其 95% 置信区间。我们可以看到，S2 比 S1好很多（在 5 分制上平均意见得分差异为 0.326），而 S3 被认为稍好一些（差异为0.114）。这两个差异在 95% 置信水平上都是显著的。人类评审 H1 比最好的系统要好得多，但略逊于人类评审 H2。这并不令人惊讶，因为 H1 既不是中文母语者也不是英文母语者，而 H2 是英语母语者。同样，人类译者之间的差异在 95% 置信水平上也是显著的。

在这里插入图片描述

4.2 双语组配对判断

图 4 显示了双语组的相同结果。他们同样发现 S3 略优于 S2（在 95% 置信水平上），尽管他们认为人类翻译之间的差异要小得多（在 95% 置信水平上不可区分），这表明双语评审更倾向于关注翻译的准确性而非流畅性。

在这里插入图片描述

秒客网

《BLEU: a Method for Automatic Evaluation of Machine Translation》翻译-4. 人类评估

4.1 单语组配对判断

4.2 双语组配对判断

相关文章