open_stt_e2e:PyTorch 端到端语音识别

时间:2024-06-20 04:11:19
【文件属性】:

文件名称:open_stt_e2e:PyTorch 端到端语音识别

文件大小:16KB

文件格式:ZIP

更新时间:2024-06-20 04:11:19

reinforcement-learning pytorch speech-recognition e2e asr

用于 open_stt 数据集的 PyTorch E2E ASR 用于训练语音识别任务的语言和声学模型的最少脚本集。 训练管道包括以下阶段: 基于字符的RNN语言模型 具有 CTC 损失的 CNN-RNN 声学模型 基于字符的 RNN 语言模型和具有 RNN-T 损失的 CNN-RNN 声学模型 使用强化学习和 RNN-T 损失进行微调 结果 下表显示了。 阶段 模型 失利 更新 核证减排量 世界范围内 1 LM 行政长官 2407000 2 是 反恐委员会 216850 19.9 57.0 3 LM+AM 循环神经网络 108425 21.7 45.6 4 LM+AM 强化学习 300 19.2 43.9 要求 PyTorch >= 1.3(带有错误修复 ) 预处理 基于 log mel 滤波器组的声学模型,带有 40 个大小为 25 毫秒的滤波器,


【文件预览】:
open_stt_e2e-master
----README.md(2KB)
----features.py(2KB)
----train_lm.py(3KB)
----LICENSE(1KB)
----train_rl.py(6KB)
----utils.py(700B)
----train_rnnt.py(4KB)
----model.py(10KB)
----utterances.py(2KB)
----train_ctc.py(4KB)
----data.py(7KB)

网友评论