文件名称:imdb_dataset.zip
文件大小:57.48MB
文件格式:ZIP
更新时间:2023-03-15 09:36:54
imdb 文本分类 数据集
该数据集为imdb的文本二分类数据集,从keras下载之后,将句子都还原为了英文单词,并将训练集和测试集都保存为了pickle格式,命名为imdb_train_rawtext.pkl和imdb_test_rawtext.pkl; 原始的keras上下载的数据集每个词都直接用序号表示,不适合使用BERT等预训练模型来处理,因此发布了该版本; 压缩包中同样包括了原始的imdb数据集,便于网速不好的同学直接下载使用;
【文件预览】:
imdb_train_rawtext.pkl
imdb.npz
imdb.pkl
imdb_test_rawtext.pkl