文件名称:CrossWOZ:大规模的中文跨域任务导向对话数据集
文件大小:17.72MB
文件格式:ZIP
更新时间:2024-05-04 04:04:48
Python
CrossWOZ CrossWOZ是第一个大规模的中文跨域“绿野仙踪”任务导向数据集。 它包含5个领域的6K对话会话和102K语音,包括酒店,餐厅,景点,地铁和出租车。 而且,语料库在用户和系统端都包含丰富的对话状态注释和对话行为。 我们还为面向任务的流水线对话系统提供了一个用户模拟器和一些基准模型,这将有助于研究人员在该语料库上比较和评估他们的模型。 有关更多详细信息,请参阅我们的论文: (TACL接受) 如果您有任何疑问,请随时提出问题。 数据 一段对话:(为简单起见,酒店名称用A,B,C代替。) 在data/crosswoz目录中。 数据统计: 分裂 火车 有效的 测试 #对话 5,012 500 500 #转(说话) 84,692 8,458 8,476 词汇 12,502 5,202 5,143 平均子目标 3.24 3.26 3.26 平均语