文件名称:BERT:预训练的深度双向 Transformer 语言模型
文件大小:3.52MB
文件格式:PDF
更新时间:2022-05-18 08:30:44
bert
我们提出了一种新的称为 BERT 的语言表示模型,BERT 代表来自 Transformer 的双向编码器表示 (Bidirectional Encoder Representations from Transformers)。不同于最近的语言表示模型(Peters et al., 2018,Radford et al., 2018), BERT 旨在通过联合调节所有层中的左右上下文来预训练深度 双向表示。因此,只需要一个额外的输出层,就可以对预训练的 BERT 表示进行微调,从而为广泛的 任务(比如回答问题和语言推断任务)创建最先进的模型,而无需对特定于任务进行大量模型结构的 修改。 BERT 的概念很简单,但实验效果很强大。它刷新了 11 个 NLP 任务的当前最优结果,包括将 GLUE 基准提升至 80.4%(7.6% 的绝对改进)、将 MultiNLI 的准确率提高到 86.7%(5.6% 的绝对改进), 以及将 SQuAD v1.1 的问答测试 F1 得分提高至 93.2 分(提高 1.5 分)——比人类表现还高出 2 分。