文件名称:HybridQA:EMNLP2020论文“ HybridQA”的数据集和代码
文件大小:17.15MB
文件格式:ZIP
更新时间:2024-04-11 01:22:43
Python
混合质量检查 该存储库包含EMNLP2020论文的数据集和代码,这是第一个针对包含表格和文本数据的异构数据的大规模多跳问答数据集。整个数据集包含基于13,000张表格的70,000多条问答对,每张表格平均链接到44个段落,有关更多详细信息, 。 注释了这些问题,要求汇总表及其超链接的文本段落中的信息,这对现有的基于文本或基于KB的同质模型构成了挑战。 要求: 张量板 tqdm 数据集可视化 玩得开心与数据集交互: : 发布的数据: 已发布的数据包含以下文件: train/dev/test.json: these files are the original files, all annotated by human. train/dev.traced.json: these files are generated by trace_answer.py to find the an
【文件预览】:
HybridQA-master
----turker_interface()
--------index_turker_v7.html(22KB)
----README.md(7KB)
----train_stage12.py(27KB)
----example.png(416KB)
----preprocessing.py(25KB)
----LICENSE(1KB)
----trace_answer.py(2KB)
----released_data()
--------dev.json(1.14MB)
--------dev.traced.json(2.61MB)
--------README.md(1KB)
--------train.traced.json(48.15MB)
--------train.json(20.64MB)
--------dev_reference.json(216KB)
--------test.json(1.02MB)
----evaluate_script.py(3KB)
----utils.py(1KB)
----test_answers.json(2.65MB)
----train_stage3.py(44KB)