MRDA-Corpus:处理会议记录器对话法语料库的实用程序

时间:2024-06-15 00:29:46
【文件属性】:

文件名称:MRDA-Corpus:处理会议记录器对话法语料库的实用程序

文件大小:15.24MB

文件格式:ZIP

更新时间:2024-06-15 00:29:46

dialogue corpus corpus-data corpus-tools dialogues

处理会议记录器对话法语料库 在概述了处理会议记录器对话法语料库的实用程序,目的是对对话法(DA)进行分类。 数据也可以下载。 数据分为作者建议的原始训练和测试集。 有两个未使用的对话,这些对话已添加到评估和测试集中。 剧本 mrda_to_text.py脚本将所有对话处理为纯文本格式。 单个对话被保存到与它们所属的集合相对应的目录中(训练,测试等)。 特定集合中的所有语音也都保存到文本文件中。 utilities.py脚本包含用于加载/保存数据的各种帮助程序功能。 process_transcript.py包含用于处理每个对话的函数。 mrda_metadata.py从处理后的对话中生成各种元数据,并将其作为字典保存到泡菜文件中。 单词,标签和频率也保存为/ metadata目录中的纯文本文件。 资料格式 话语用MRDA标签集标记,这是 DA的变体。 原始MRDA标签构造允许DA以<


网友评论