数据准备-cryptography and network security principles and practice edition(6th) 无水印原版pdf

时间:2024-06-30 16:12:41
【文件属性】:

文件名称:数据准备-cryptography and network security principles and practice edition(6th) 无水印原版pdf

文件大小:2.93MB

文件格式:PDF

更新时间:2024-06-30 16:12:41

kaldi

4.1 数据准备 译者:V (shiwei@sz.pku.edu.cn) 水平有限,如有错误请多包涵。@wbglearn 校对。 介绍 在运行完示例脚本后(见Kaldi tutorial),你可能会想用自己的数据在Kaldi 上跑一下。本节主要讲述如何准备相关数据。我们假设本页的读者使用的是最新 版本的示例脚本(即在脚本目录下被命名为s5的那些,例如egs/rm/s5)。另外, 除了阅读本页所述内容外,你还可以查看脚本目录下的那些数据准备相关的脚 本。(译者:结合起来看更易理解。)在顶层的run.sh 脚本(例如 egs/rm/s5/run.sh) 中,最前面的几行命令都是和数据准备相关的,代表数据准备的不同步骤。子目 录local/下的脚本都是和数据集相关的。例如,Resource Management(RM) 数 据集相应的脚本就是local/rm_data_prep.sh。对RM数据集来说,这几行数据准备 的命令为: local/rm_data_prep.sh /export/corpora5/LDC/LDC93S3A/rm_comp || exit 1; utils/prepare_lang.sh data/local/dict '!SIL' data/local/lang data/lang || exit 1; local/rm_prepare_grammar.sh || exit 1; 而对于 WSJ 来说,命令为: wsj0=/export/corpora5/LDC/LDC93S6B wsj1=/export/corpora5/LDC/LDC94S13B local/wsj_data_prep.sh $wsj0/??-{?,??}.? $wsj1/??-{?,??}.? || exit 1; local/wsj_prepare_dict.sh || exit 1; utils/prepare_lang.sh data/local/dict "" data/local/lang_tmp data/lang || exit 1; local/wsj_format_data.sh || exit 1; 在WSJ的示例脚本中,上述命令之后还有一些训练语言模型的命令(根据标 注重新训练语言模型,而不是使用LDC提供的), 但是上述几条命令是最重要 的。 数据准备阶段的输出包含两部分。一部分与“数据”相关(保存在诸如data/train/ 之类的目录下),另一部分则与“语言”相关(保存在诸如data/lang/之类的目录下)。 “数据”部分与数据集的录音相关,而“语言”部分则与语言本身更相关的内容,例 如发音字典、音素集合以及其他Kaldi需要的关于音素的额外信息。如果你想用 已有的识别系统和语言模型对你的数据进行解码,那么你只需要重写“数据”部 分。 数据准备-- 数据部分. 举个数据准备阶段中的关于“数据”部分例子,请查看任何一个示例脚本目录 下的“data/train”目录(假设你已经运行过一遍这些脚本了)。注意:目录名字 “data/train”本身没有什么特别的。一些被命名为其他名字的目录,如 “data/eval2000”(为一个测试集建立的),有几乎差不多的目录结构和文件格式 (说“几乎”是因为在测试集的目录下,可能含有“sgm”和“glm”文件,用于sclite 评分)。我们以Switchboard数据为例,对应脚本在egs/swbd/s5下


网友评论