文件名称:Tashkeela processed:Tashkeela 数据集清理和规范化。-开源
文件大小:105.19MB
文件格式:ZIP
更新时间:2024-06-20 07:27:16
开源软件
一个版本的 Tashkeela 阿拉伯语变音文本数据集从非阿拉伯语内容和非变音符号文本中清除,然后分为训练集、开发集和测试集。 清理过程包括删除 XML 标签和奇怪的符号,以及修复变音符号错误。 之后,在专注于阿拉伯语单词的提取的同时进行标记化。 结果是一个以空格分隔的标记文件,其中单词和数字被分隔,但标点符号序列不分隔(即,结束括号后跟一个点)。 句子分割是在通常的标点符号处完成的,例如点、逗号、问号/感叹号和行尾。 分区过程是通过打乱句子组然后将每个组分成三个部分(训练/验证/测试)并将它们存储在单独的文件中来完成的。 原始 Tashkeela 数据集可在 https://sourceforge.net/projects/tashkeela/ 获得