Switchboard-Corpus:处理总机对话法语料库的实用程序

时间:2024-06-14 22:37:24
【文件属性】:

文件名称:Switchboard-Corpus:处理总机对话法语料库的实用程序

文件大小:22.47MB

文件格式:ZIP

更新时间:2024-06-14 22:37:24

dialogue corpus corpus-data corpus-tools switchboard

处理总机对话法语料库 用于分类对话行为(DA)的处理“实用程序。 数据分为作者建议的原始和集(1115训练和19项测试)。 其余的21个对话已用作验证集。 剧本 swda_to_text.py脚本将所有对话处理为纯文本格式。 单个对话被保存到与它们所属的集合相对应的目录中(训练,测试等)。 特定集合中的所有语音也都保存到文本文件中。 utilities.py脚本包含用于加载/保存数据的各种帮助程序功能。 process_transcript.py包含用于处理每个对话的函数。 swda_metadata.py从处理后的对话中生成各种元数据,并将其作为字典保存到泡菜文件中。 单词,标签和频率也保存为/ metadata目录中的纯文本文件。 感谢Christopher Potts提供了.csv格式的原始数据和swda.py脚本来处理.csv数据,这两者都可以在找到 资料格式 话语标记有


网友评论