文件名称:OpenASR:基于pytorch的端到端语音识别系统
文件大小:2.24MB
文件格式:ZIP
更新时间:2024-06-16 14:50:01
speech transformer speech-recognition las speech-to-text
OpenASR的 基于pytorch的end2end语音识别系统。 主要体系结构是 。 特征 最小依赖。 该系统不依赖外部软件进行特征提取或解码。 用户只需安装PyTorch深度学习框架。 良好的表现。 该系统包括高级算法,例如标签平滑,SpecAug,LST,并在ASHELL1上实现了良好的性能。 AISHELL1测试的基准CER为6.6,优于ESPNet。 模块化设计。 我们将系统分为几个模块,例如培训师,指标,进度表,模型。 扩展和添加功能很容易。 End2End 。 特征提取和标记化是在线的。 系统直接处理波形文件。 因此,该过程大大简化了。 相依性 python> = 3.6 火炬> = 1.1 pyyaml> = 5.1 tensorflow和tensorboardX进行可视化。 (如果不需要可视化结果,可以在src / utils.py中将TENSORBOARD_
【文件预览】:
OpenASR-master
----.gitignore(2KB)
----egs()
--------aishell1()
----src()
--------trainer.py(23KB)
--------third_party()
--------lm_train.py(4KB)
--------sp_layers.py(5KB)
--------sp_layers_test.py(4KB)
--------lm_layers.py(4KB)
--------testdata()
--------stat_length.py(3KB)
--------models.py(15KB)
--------encoder_layers_test.py(451B)
--------utils.py(6KB)
--------decoder_layers.py(4KB)
--------prepare_data.py(4KB)
--------data_test.py(1KB)
--------avg_last_ckpts.py(2KB)
--------schedule.py(5KB)
--------encoder_layers.py(6KB)
--------stat_grapheme.py(976B)
--------modules.py(1KB)
--------utils_test.py(2KB)
--------metric.py(4KB)
--------decode.py(5KB)
--------data.py(9KB)
--------train.py(5KB)
----figs()
--------dec_enc_att.png(10KB)
--------loss.png(18KB)
--------enc_att.png(61KB)
----LICENSE(11KB)
----README_zh.md(3KB)
----tools()
--------spk2utt_to_utt2spk.pl(837B)
--------run.pl(10KB)
--------sclite(321KB)
--------combine_data.sh(4KB)
--------int2sym.pl(2KB)
--------utt2spk_to_spk2utt.pl(1KB)
--------filter_scp.pl(3KB)
--------parse_options.sh(4KB)
----README.md(4KB)