这篇论文使用了六个分类数据集,分别是SST2、SST5、MR、Subj、AGNews和CB。任务类型是情感分类、主题分类和自然语言推理。评价指标包括零样本学习(ZSL)、微调(FT)和上下文学习(ICL)设置下的准确率。
在每个数据集、任务类型和评价指标上,该方法实现了不同的性能。以SST2数据集为例,GPT 1.3B在ZSL、FT和ICL设置下的准确率分别为70.5、73.9和92.7;而GPT 2.7B在相同设置下的准确率分别为71.4、76.9和95.0。与现有方法相比,该方法在ICL设置下取得了更高的准确率,特别是在GPT 2.7B上的表现更为突出。
具体数值如下:
-
SST2数据集:
- GPT 1.3B:ZSL 70.5,FT 73.9,ICL 92.7
- GPT 2.7B:ZSL 71.4,FT 76.9,ICL 95.0
-
SST5数据集:
- GPT 1.3B:ZSL 39.3,FT 39.5,ICL 45.0
- GPT 2.7B:ZSL 35.9,FT 39.1,ICL 46.5
-
MR数据集:
- GPT 1.3B:ZSL 65.9,FT 73.0,ICL 89.0
- GPT 2.7B:ZSL 60.9,FT 80.0,ICL 91.3
-
Subj数据集:
- GPT 1.3B:ZSL 72.6,FT 77.8,ICL 90.0
- GPT 2.7B:ZSL 75.2,FT 86.1,ICL 90.3
-
AGNews数据集:
- GPT 1.3B:ZSL 46.3,FT 65.3,ICL 79.2
- GPT 2.7B:ZSL 39.8,FT 65.7,ICL 80.3
-
CB数据集:
- GPT 1.3B:ZSL 37.5,FT 55.4,ICL 57.1
- GPT 2.7B:ZSL 42.9,FT 57.1,ICL 55.4
这些结果表明,在不同数据集和任务类型下,ICL相对于ZSL和FT都取得了更好的性能,特别是在更大规模的GPT 2.7B模型上表现更为显著。