文件名称:deepspeech.mxnet:百度DeepSpeech架构的MXNet实现
文件大小:215KB
文件格式:ZIP
更新时间:2024-06-07 00:58:54
mxnet arch speech speech-recognition baidu
deepSpeech.mxnet:丰富语音示例 此示例基于可帮助您使用以下方法大规模构建语音转文本(STT)模型 CNN,完全连接的网络,用于网络层的(Bi-)RNN,(Bi-)LSTM和(Bi-)GRU, 批量归一化和辍学以提高培训效率, 以及用于计算损失的经纱CTC。 此外,为了创建自己的STT模型,您只需要编辑配置文件而不是实际代码即可。 动机 本示例旨在指导希望使用MXNet制作实用STT模型的人们。 有了上面解释的丰富功能和便利,您可以比以前的示例更轻松地构建自己的语音识别模型。 环境环境 MXNet版本:0.9.5+ GPU记忆体大小:2.4GB以上 安装张量板进行记录 pip install tensorboard 用于音频预处理的 (如果遇到关于libsndfile的错误,请遵循 。) pip install soundfile 经纱CTC:请按照安装百度的经
【文件预览】:
deepspeech.mxnet-master
----Libri_sample()
--------3830-12529-0005.wav(123KB)
--------3830-12531-0030.wav(92KB)
----default.cfg(3KB)
----flac_to_wav.sh(219B)
----main.py(16KB)
----stt_utils.py(5KB)
----train.py(7KB)
----layer()
--------slice.py(329B)
--------warpctc.py(791B)
--------gru.py(11KB)
--------__init__.py(0B)
--------fc.py(10KB)
--------conv.py(565B)
--------batchnorm.py(1KB)
--------lstm.py(15KB)
----stt_io_iter.py(4KB)
----stt_bi_graphemes_util.py(1KB)
----stt_datagenerator.py(12KB)
----resources()
--------unicodemap_en_baidu.csv(130B)
----LICENSE(11KB)
----singleton.py(922B)
----label_util.py(3KB)
----arch_deepspeech.py(9KB)
----stt_io_bucketingiter.py(6KB)
----config_util.py(3KB)
----Libri_sample.json(249B)
----stt_bucketing_module.py(526B)
----deepspeech.cfg(3KB)
----README.md(5KB)
----log_util.py(2KB)
----stt_metric.py(7KB)