论文笔记--Language Models are Few-Shot Learners
- 1. 文章简介
- 2. 文章导读
- 2.1 概括
- 2.2 文章重点技术
- 2.2.1 数据集
- 2.2.2 模型架构
- 2.2.3 Few-shot Learining
- 3. GPT-1 & GPT-2 & GPT-3
- 4. FT & FS 优缺点
- 5. 文章亮点
- 6. 原文传送门
- 7. References
1. 文章简介
- 标题:Language Models are Few-Shot Learners
- 作者:Brown T, Mann B, Ryder N, et al.
- 日期:2020
- 期刊:NIPS
2. 文章导读
2.1 概括
文章提出了大语言模型GPT-3,在GPT-2[1][2]的基础上进一步提升了模型的参数量和训练数据集。大量的数值实验表明,足够大的语言模型+one-shot或few-shot技巧可以在一些NLP任务上持平甚至超越fine-tuned模型的SOTA表现。
下面均用缩略语表示:
- FS: Few-Shot
- 0S: Zero-Shot
- 1S: One-Shot
- FT: Fine-Tuned
2.2 文章重点技术
2.2.1 数据集
CommonCrawl:文章通过高质量参考语料库对CommonCrawl数据集进行了过滤,并通过模糊去重对文档进行去重,且增加了高质量参考语料库以增加文本的多样性。WebText[2]:文章采用了类似GPT-2中的WebText文档收集清洗方法获得了更大范围的网页数据。Books Corpora:此外文章增加了两个来自网络的书籍语料库。Wiki:增加了英语百科语料库。
2.2.2 模型架构
模型架构基本延续GPT-2的基于Transformer的网络架构。在其基础上增加了Sparse-Transformer的方法:即每次计算注意力的时候并不计算当前词与句子中所有词的注意力,而是通过Sparse Matrix仅仅计算当前词与句子中其它部分单词的注意力。此外模型在参数量上远超GPT-2,具体可见下一节的表格。
2.2.3 Few-shot Learining
模型预测的时候可以直接采用0S/1S/FS方法。模型随机从训练集中采样
K
K
K个标注数据作为当前测试数据的上下文,再与当前用例的输入拼接传给模型,期望模型输出next tokens(要注意所有上下文+当前用例+期望输出的大小不能超过模型可接受的窗口大小2048)。
此时大名鼎鼎的In-Context Learning还没有问世,所以GPT-3的FS是随机采样的
3. GPT-1 & GPT-2 & GPT-3
GPT-1 | GPT-2 | GPT-3 | |
---|---|---|---|
论文 | Improving Language Understanding by Generative Pre-Training | Language Models are Unsupervised Multitask Learners | Language Models are Few-Shot Learners |
参数量 | 117M | 1542M | 175B |
max token | 512 | 1024 | 2048 |
batch_size | 64 | 512 | 3.2M |
layers | 12 | 48 | 96 |
dimension | 768 | 1600 | 12288 |
vocabulary size | 40000 | 50257 | 50257 |
网络架构 | 同Transformer | 修改LN的位置,增加额外的LN,残差层正则 | 同GPT-2,增加类sparse-Transformer |
下游任务 | FT | 0S | ZS/FS |
4. FT & FS 优缺点
- FT:缺点很明显,即需要针对下游任务注入标注的数据,标注成本高;优点为FT之后的模型在特定领域通过表现非常好
- FS:缺点为一般来说表现略低于FT;优点即不需要标注数据,或者需要数据很少。
5. 文章亮点
文章在GPT-2的基础之上进行了优化,将原有的大语言模型提升了两个量级。数值实验表明,大语言模型+FS在一些任务上可以达到SOTA表现。但在翻译、文本蕴含等任务上距离SOTA还有一段距离。一个合理的解释为文章的所有优化目标均为单方向的,所以在涉及到需要考虑双向句子信息(如文本比较类任务)的时候往往效果低于双方向目标的模型。
6. 原文传送门
Language Models are Few-Shot Learners
7. References
[1] Language Models are Unsupervised Multitask Learners
[2] GPT-2论文笔记
[3] Language Models are Unsupervised Multitask Learners
[4] GPT-1论文笔记
[5] GPT系列论文整理