来自论文“人们在问什么关于COVID-19？问题分类数据集”的论文中的COVID-Q：COVID-19问题数据集下载

【文件属性】：

文件名称：来自论文“人们在问什么关于COVID-19？问题分类数据集”的论文中的COVID-Q：COVID-19问题数据集

文件大小：21.99MB

文件格式：ZIP

更新时间：2024-02-21 08:16:24

nlp text-classification svm questions question-answering

COVID-Q：关于COVID-19的1,690个问题论文“”的完整数据数据集CSV文件可在找到。该数据集由已注释为广泛类别（例如，传播，预防）和更具体类别的COVID-19问题组成，因此同一类别中的问题都在问同一件事。注意：可以在找到我们类别的正式定义。此存储库中包含的文件夹： code -将数据集拆分为训练/测试数据集并运行基本BERT基线所需的所有代码。 data -包含原始数据（TSV，CSV，PDF）以记录所有问题源 dataset_categories包含用于问题类别分类的可用训练和测试数据。 dataset_classes包含用于问题类别分类的可用训练和测试数据。数据集问题类别分类问题类别分类任务将每个问题分配给15个广泛类别之一（例如，传播，预防）。目的是使给定问题与最能描述问题所要求的信息类型的类别相匹配。在dataset_categories文件夹中，包含以下文件： question_embeddings_pooled.pickle数据集中每个问题的BERT嵌入字典。请注意，扩充问题的嵌入内容未包含在此泡菜中，需要重新创建泡菜文件

立即下载

【文件预览】：
COVID-Q-master
----dataset_categories()
--------testA.csv(41KB)
--------question_embeddings_pooled.pickle(10.64MB)
--------train20_augmented.csv(253KB)
--------train20.csv(17KB)
--------testB.csv(13KB)
----Figure.png(192KB)
----code()
--------test_class_knn.py(5KB)
--------split_class_dataset.py(2KB)
--------split_category_dataset.py(2KB)
--------test_category_knn.py(3KB)
--------test_category_svm.py(2KB)
--------methods.py(2KB)
--------get_bert_embeddings.py(2KB)
--------eda.py(7KB)
----dataset_classes()
--------train3.csv(13KB)
--------testA.csv(22KB)
--------question_embeddings_pooled.pickle(10.64MB)
--------train3_augmented.csv(196KB)
--------testB.csv(6KB)
----README.md(7KB)
----final_master_dataset.csv(525KB)
----data()
--------TSVs()
--------zDatasetDocumentation.txt(1KB)
--------final_master_dataset.csv(525KB)
--------PDFs()
--------Original CSVs()

秒客网

来自论文“人们在问什么关于COVID-19？问题分类数据集”的论文中的COVID-Q：COVID-19问题数据集

网友评论

相关文章