文件名称:eesen-for-thchs30:中文普通话的ASR
文件大小:110KB
文件格式:ZIP
更新时间:2024-06-04 17:00:29
lstm chinese asr ctc mandarin
这个recipe是基于eesen代码改写的中文语音识别,语料库为清华语料库(data_thchs30)。 1 功能: 1)可以实现中文语音识别 2)可以加入其它的汉语语料库进行算法研究 3)也可以单独研究以wfst为架构的解码器,实现声学模型出来的音素到词的转换 2 算法:BiLSTM+CTC+WFST 1)BiLSTM:3 layers+ 1 projection layer,320 hidden units 2)CTC:216个声韵母标签+1个blank标签 3)WFST: CTC token fst(T.fst), lexicon fst(L.fst), language model fst(G.fst) 3 实验结果: 1)CTC训练标签正确率:92%左右 2)CTC交叉严重标签正确率:90%左右 3)最终的解码WER:25%左右 4 该目录下的相关文件说明: 1)运
【文件预览】:
eesen-for-thchs30-master
----local()
--------hkust_train_lms.sh(2KB)
--------thchs-30_decode_graph.sh(1KB)
--------thchs-30_data_prep.sh(1015B)
--------score.sh(3KB)
--------thchs-30_prepare_phn_dict.sh(1KB)
--------hkust_normalize.pl(823B)
----train.sh(2KB)
----exp()
--------train_phn_l3_c320()
--------model_l4_c320()
----cmd.sh(722B)
----feature.sh(1KB)
----utils()
--------s2eps.pl(1005B)
--------queue.pl(22KB)
--------ctc_compile_dict_token.sh(5KB)
--------subset_scp.pl(3KB)
--------eps2disambig.pl(821B)
--------remove_oovs.pl(1KB)
--------add_lex_disambig.pl(4KB)
--------ctc_token_fst.py(714B)
--------distribute_scp.pl(1KB)
--------split_scp.pl(8KB)
--------run_rocks.pl(5KB)
--------build_const_arpa_lm.sh(1KB)
--------subset_data_dir.sh(7KB)
--------spk2utt_to_utt2spk.pl(833B)
--------split_data.sh(4KB)
--------shuffle_list.pl(1KB)
--------run.pl(9KB)
--------validate_data_dir.sh(9KB)
--------subset_data_dir_tr_cv.sh(4KB)
--------prep_ctc_trans_bkup.py(2KB)
--------make_lexicon_fst.pl(6KB)
--------int2sym.pl(2KB)
--------utt2spk_to_spk2utt.pl(1KB)
--------prep_scps.sh(2KB)
--------format_lm_sri.sh(4KB)
--------filter_scp.pl(3KB)
--------prep_ctc_trans.py(3KB)
--------pinyin_map.pl(4KB)
--------training_trans_fst.py(443B)
--------convert_ctm.pl(3KB)
--------parse_options.sh(4KB)
--------best_wer.sh(1KB)
--------model_topo.py(5KB)
--------sym2int.pl(3KB)
--------fix_data_dir.sh(5KB)
--------create_data_link.pl(3KB)
--------find_arpa_oovs.pl(2KB)
--------slurm.pl(23KB)
--------slurm_comet.pl(23KB)
----README.md(2KB)
----run.sh(71B)
----steps()
--------train_ctc_parallel_h.sh(8KB)
--------compute_cmvn_stats.sh(4KB)
--------decode_ctc.sh(3KB)
--------train_ctc_parallel.sh(8KB)
--------train_ctc_parallel_x3.sh(11KB)
--------make_fbank_pitch.sh(5KB)
--------make_fbank.sh(4KB)
--------align_ctc_single_utt.sh(3KB)
--------decode_ctc_lat.sh(4KB)
----conf()
--------fbank.conf(43B)
--------mfcc.conf(107B)
--------pitch.conf(25B)
----make_TLG_WFST.sh(1KB)
----decode.sh(626B)
----path.sh(242B)