我们有两组人类评审。第一组称为单语组,由 10 名以英语为母语的评审组成。第二组称为双语组,由 10 名以中文为母语且在过去几年中生活在美国的评审组成。这些人类评审中没有一位是专业翻译员。人类评审对我们 5 个标准系统的中文句子子集进行了评估,这些句子是从我们的 500 句测试语料库中随机抽取的。我们将每个源句子与其 5 个翻译配对,总共形成 250 对中文源句和英文翻译对。我们准备了一个包含这些翻译对的网页,这些翻译对被随机排序,以分散每个源句子的五个翻译。所有评审都使用同一个网页,并按照相同的顺序查看句子对。他们对每个翻译进行评分,评分范围从1(非常差)到5(非常好)。单语组的评审仅根据翻译的可读性和流畅性进行判断。
正如预期的那样,有些评审比其他评审更宽松,而有些句子比其他句子更容易翻译。为了考虑评审和句子之间的固有差异,我们比较了每个评审在各系统中对同一句子的评分。我们对按其总体平均得分排序的相邻系统进行了四次成对 t 检验比较。
4.1 单语组配对判断
图3 显示了两个连续系统得分之间的平均差异及其 95% 置信区间。我们可以看到,S2 比 S1好很多(在 5 分制上平均意见得分差异为 0.326),而 S3 被认为稍好一些(差异为0.114)。这两个差异在 95% 置信水平上都是显著的。人类评审 H1 比最好的系统要好得多,但略逊于人类评审 H2。这并不令人惊讶,因为 H1 既不是中文母语者也不是英文母语者,而 H2 是英语母语者。同样,人类译者之间的差异在 95% 置信水平上也是显著的。
4.2 双语组配对判断
图 4 显示了双语组的相同结果。他们同样发现 S3 略优于 S2(在 95% 置信水平上),尽管他们认为人类翻译之间的差异要小得多(在 95% 置信水平上不可区分),这表明双语评审更倾向于关注翻译的准确性而非流畅性。