文件名称:Espresso是一个开源的,模块化的,可扩展的端到端神经自动语音识别(ASR)工具箱-python
文件大小:3.94MB
文件格式:ZIP
更新时间:2024-07-08 13:28:31
自然语言处理
Espresso是一个开源的,模块化的,可扩展的端到端神经自动语音识别(ASR)工具箱,它基于深度学习库PyTorch和流行的神经机器翻译工具箱fairseq。 Espresso支持在GPU和计算节点之间进行分布式训练,并具有ASR中常用的各种解码方法,包括基于超前单词的语言模型融合,为此实现了快速,并行的解码器。 Espresso Espresso 是一种开源、模块化、可扩展的端到端神经自动语音识别 (ASR) 工具包,基于深度学习库 PyTorch 和流行的神经机器翻译工具包 fairseq。 Espresso 支持跨 GPU 和计算节点的分布式训练,并具有 ASR 中常用的各种解码方法,包括基于词的前瞻语言模型融合,为此实现了快速、并行化的解码器。 我们为以下语音数据集提供了最先进的训练配方:WSJ LibriSpeech Switchboard 最新消息:2020 年 4 月:现在支持 E2E LF-MMI(使用 PyChain)和混合 ASR 的交叉熵训练。 此处和此处分别提供了 WSJ 食谱作为示例。 2020 年 3 月:支持 SpecAugment 并发布相关配