数据准备-基于xilinx fpga的sata3.0 ip核

时间:2024-06-28 07:07:49
【文件属性】:

文件名称:数据准备-基于xilinx fpga的sata3.0 ip核

文件大小:1.34MB

文件格式:PDF

更新时间:2024-06-28 07:07:49

kaldi 语音识别

4.1数据准备 译者:V (shiwei@sz.pku.edu.cn) 水平有限,如有错误请多包涵。@wbglearn校对。 介绍 在运行完示例脚本后(见Kaldi tutorial),你可能会想用自己的数据在Kaldi上跑一下。本 节主要讲述如何准备相关数据。我们假设本页的读者使用的是最新版本的示例脚本(即在脚 本目录下被命名为s5的那些,例如egs/rm/s5)。另外,除了阅读本页所述内容外,你还可以 查看脚本目录下的那些数据准备相关的脚本。(译者:结合起来看更易理解。) 在顶层的 run.sh 脚本(例如 egs/rm/s5/run.sh)中,最前面的几行命令都是和数据准备相关的,代表 数据准备的不同步骤。子目录local/下的脚本都是和数据集相关的。例如,Resource Management(RM) 数据集相应的脚本就是local/rm_data_prep.sh。对RM数据集来说,这几 行数据准备的命令为: local/rm_data_prep.sh /export/corpora5/LDC/LDC93S3A/rm_comp || exit 1; utils/prepare_lang.sh data/local/dict '!SIL' data/local/lang data/lang || exit 1; local/rm_prepare_grammar.sh || exit 1; 而对于WSJ来说,命令为: wsj0=/export/corpora5/LDC/LDC93S6B wsj1=/export/corpora5/LDC/LDC94S13B local/wsj_data_prep.sh $wsj0/??-{?,??}.? $wsj1/??-{?,??}.? || exit 1; local/wsj_prepare_dict.sh || exit 1; utils/prepare_lang.sh data/local/dict "" data/local/lang_tmp data/lang || exit 1; local/wsj_format_data.sh || exit 1; 在WSJ的示例脚本中,上述命令之后还有一些训练语言模型的命令(根据标注重新训练语言 模型,而不是使用LDC提供的), 但是上述几条命令是最重要的。 数据准备阶段的输出包含两部分。一部分与“数据”相关(保存在诸如data/train/之类的目录 下),另一部分则与“语言”相关(保存在诸如data/lang/之类的目录下)。“数据”部分与数据 集的录音相关,而“语言”部分则与语言本身更相关的内容,例如发音字典、音素集合以及其 他Kaldi需要的关于音素的额外信息。如果你想用已有的识别系统和语言模型对你的数据进 行解码,那么你只需要重写“数据”部分。 数据准备-- 数据部分. 举个数据准备阶段中的关于“数据”部分例子,请查看任何一个示例脚本目录下的“data/train” 目录(假设你已经运行过一遍这些脚本了)。注意:目录名字“data/train”本身没有什么特别 的。一些被命名为其他名字的目录,如“data/eval2000”(为一个测试集建立的),有几乎差 不多的目录结构和文件格式(说“几乎”是因为在测试集的目录下,可能含有“sgm”和“glm” 文件,用于sclite评分)。我们以Switchboard数据为例,对应脚本在egs/swbd/s5下 s5# ls data/train 版 权 所 有 翻 版 必 究


网友评论