文本生成类（机器翻译）系统评估

在机器翻译任务中常用评价指标：BLEU、ROGUE、METEOR、PPL。

这些指标的缺点：只能反应模型输出是否类似于测试文本。

BLUE（Bilingual Evaluation Understudy）：是用于评估模型生成的句子(candidate)和实际句子(reference)的差异的指标。该指标由IBM于2002年提出。该指标还适用于NLP的其他场景，如：语言生成、图像标题生成、文本生成、语音识别。