文件名称:数据准备-基于xilinx fpga的sata3.0 ip核
文件大小:1.34MB
文件格式:PDF
更新时间:2024-06-28 07:07:49
kaldi 语音识别
4.1数据准备
译者:V (shiwei@sz.pku.edu.cn) 水平有限,如有错误请多包涵。@wbglearn校对。
介绍
在运行完示例脚本后(见Kaldi tutorial),你可能会想用自己的数据在Kaldi上跑一下。本
节主要讲述如何准备相关数据。我们假设本页的读者使用的是最新版本的示例脚本(即在脚
本目录下被命名为s5的那些,例如egs/rm/s5)。另外,除了阅读本页所述内容外,你还可以
查看脚本目录下的那些数据准备相关的脚本。(译者:结合起来看更易理解。) 在顶层的
run.sh 脚本(例如 egs/rm/s5/run.sh)中,最前面的几行命令都是和数据准备相关的,代表
数据准备的不同步骤。子目录local/下的脚本都是和数据集相关的。例如,Resource
Management(RM) 数据集相应的脚本就是local/rm_data_prep.sh。对RM数据集来说,这几
行数据准备的命令为:
local/rm_data_prep.sh /export/corpora5/LDC/LDC93S3A/rm_comp || exit 1;
utils/prepare_lang.sh data/local/dict '!SIL' data/local/lang data/lang || exit 1;
local/rm_prepare_grammar.sh || exit 1;
而对于WSJ来说,命令为:
wsj0=/export/corpora5/LDC/LDC93S6B
wsj1=/export/corpora5/LDC/LDC94S13B
local/wsj_data_prep.sh $wsj0/??-{?,??}.? $wsj1/??-{?,??}.? || exit 1;
local/wsj_prepare_dict.sh || exit 1;
utils/prepare_lang.sh data/local/dict "