文件名称:数据准备-基于xilinx fpga的sata3.0 ip核
文件大小:1.34MB
文件格式:PDF
更新时间:2021-06-08 13:21:09
kaldi 语音识别 4.1数据准备 译者:V (shiwei@sz.pku.edu.cn) 水平有限,如有错误请多包涵。@wbglearn校对。 介绍 在运行完示例脚本后(见Kaldi tutorial),你可能会想用自己的数据在Kaldi上跑一下。本 节主要讲述如何准备相关数据。我们假设本页的读者使用的是最新版本的示例脚本(即在脚 本目录下被命名为s5的那些,例如egs/rm/s5)。另外,除了阅读本页所述内容外,你还可以 查看脚本目录下的那些数据准备相关的脚本。(译者:结合起来看更易理解。) 在顶层的 run.sh 脚本(例如 egs/rm/s5/run.sh)中,最前面的几行命令都是和数据准备相关的,代表 数据准备的不同步骤。子目录local/下的脚本都是和数据集相关的。例如,Resource Management(RM) 数据集相应的脚本就是local/rm_data_prep.sh。对RM数据集来说,这几 行数据准备的命令为: local/rm_data_prep.sh /export/corpora5/LDC/LDC93S3A/rm_comp || exit 1; utils/prepare_lang.sh data/local/dict '!SIL' data/local/lang data/lang || exit 1; local/rm_prepare_grammar.sh || exit 1; 而对于WSJ来说,命令为: wsj0=/export/corpora5/LDC/LDC93S6B wsj1=/export/corpora5/LDC/LDC94S13B local/wsj_data_prep.sh $wsj0/??-{?,??}.? $wsj1/??-{?,??}.? || exit 1; local/wsj_prepare_dict.sh || exit 1; utils/prepare_lang.sh data/local/dict "