文件名称:pika:基于Pytorch和(Py)Kaldi的轻量级语音处理工具包
文件大小:95KB
文件格式:ZIP
更新时间:2024-03-27 23:50:29
Python
PIKA:基于Pytorch和(Py)Kaldi的轻量级语音处理工具包 PIKA是基于Pytorch和(Py)Kaldi的轻量级语音处理工具包。 第一个版本侧重于端到端语音识别。 我们使用作为深度学习引擎,使用进行数据格式化和特征提取。 主要特点 即时数据扩充和特征提取加载程序 TDNN变压器编码器以及基于卷积和变压器的解码器模型结构 RNNT训练和批量解码 带有外部Ngram FST的RNNT解码(即时记录,aka浅层融合) RNNT最低贝叶斯风险(MBR)培训 用于RNNT的LAS前向和后向记录器 基于高效BMUF(块模型更新过滤)的分布式训练 安装和依赖项 通常,我们建议使用因为它具有大多数依赖性。 其他主要依赖性包括 火炬 请访问进行pytorch安装,代码和脚本应能够在pytorch 0.4.0及更高版本上运行。 但是我们建议使用上述1.0.0版本,以便与RNNT丢失模块兼容(
【文件预览】:
pika-main
----utils()
--------wav_to_bytes.py(952B)
--------shuffle_by_length.py(2KB)
--------wav_to_seq.py(1KB)
--------compute_global_cmvn.py(3KB)
--------spec_augment.py(939B)
--------run.pl(10KB)
--------shuffle_list.pl(1KB)
--------split_by_length.py(2KB)
--------split_scp.pl(9KB)
--------logger.py(2KB)
----egs()
--------train_transducer_bmuf_otfaug.sh(6KB)
--------local()
--------fbank.conf(209B)
--------train_las_rescorer_bmuf_otfaug.sh(2KB)
--------eval_transducer.sh(4KB)
--------train_transducer_mbr_bmuf_otfaug.sh(2KB)
--------path.sh(784B)
----loader()
--------utt_loader.py(8KB)
--------audio.py(25KB)
--------otf_utt_loader.py(12KB)
----requirements.txt(115B)
----LICENSE(11KB)
----trainer()
--------train_transducer_bmuf_otfaug.py(15KB)
--------model()
--------bmuf.py(13KB)
--------train_las_bmuf_otfaug.py(25KB)
--------train_transducer_mbr_bmuf_otfaug.py(21KB)
----README.md(6KB)
----decoder()
--------decode_transducer.py(12KB)
--------sorted_matcher.py(4KB)
--------transducer_decoder.py(11KB)
--------beam_transducer.py(10KB)
----.gitignore(2KB)