文件名称:来自论文“人们在问什么关于COVID-19?问题分类数据集”的论文中的COVID-Q:COVID-19问题数据集
文件大小:21.99MB
文件格式:ZIP
更新时间:2024-02-21 08:16:24
nlp text-classification svm questions question-answering
COVID-Q:关于COVID-19的1,690个问题 论文“”的完整数据 数据集CSV文件可在找到。 该数据集由已注释为广泛类别(例如,传播,预防)和更具体类别的COVID-19问题组成,因此同一类别中的问题都在问同一件事。 注意:可以在找到我们类别的正式定义。 此存储库中包含的文件夹: code -将数据集拆分为训练/测试数据集并运行基本BERT基线所需的所有代码。 data -包含原始数据(TSV,CSV,PDF)以记录所有问题源 dataset_categories包含用于问题类别分类的可用训练和测试数据。 dataset_classes包含用于问题类别分类的可用训练和测试数据。 数据集 问题类别分类 问题类别分类任务将每个问题分配给15个广泛类别之一(例如,传播,预防)。 目的是使给定问题与最能描述问题所要求的信息类型的类别相匹配。 在dataset_categories文件夹中,包含以下文件: question_embeddings_pooled.pickle数据集中每个问题的BERT嵌入字典。 请注意,扩充问题的嵌入内容未包含在此泡菜中,需要重新创建泡菜文件
【文件预览】:
COVID-Q-master
----dataset_categories()
--------testA.csv(41KB)
--------question_embeddings_pooled.pickle(10.64MB)
--------train20_augmented.csv(253KB)
--------train20.csv(17KB)
--------testB.csv(13KB)
----Figure.png(192KB)
----code()
--------test_class_knn.py(5KB)
--------split_class_dataset.py(2KB)
--------split_category_dataset.py(2KB)
--------test_category_knn.py(3KB)
--------test_category_svm.py(2KB)
--------methods.py(2KB)
--------get_bert_embeddings.py(2KB)
--------eda.py(7KB)
----dataset_classes()
--------train3.csv(13KB)
--------testA.csv(22KB)
--------question_embeddings_pooled.pickle(10.64MB)
--------train3_augmented.csv(196KB)
--------testB.csv(6KB)
----README.md(7KB)
----final_master_dataset.csv(525KB)
----data()
--------TSVs()
--------zDatasetDocumentation.txt(1KB)
--------final_master_dataset.csv(525KB)
--------PDFs()
--------Original CSVs()