文件名称:deepspeech:DeepSpeech霓虹灯实现
文件大小:260KB
文件格式:ZIP
更新时间:2024-06-04 04:59:31
Cuda
霓虹灯中深度语音2的实现 该存储库包含霓虹灯中百度SVAIL的模型的实现。 大部分模型都可以在主线霓虹灯中轻松获得。 为了也支持CTC成本功能,我们为百度的了与氖气兼容的包装。 深度语音2模型的计算量很大,因此可能需要很长时间才能运行。 即使在GPU利用率接近完美的情况下,该模型也可能需要长达1周的时间才能在足够大的数据集上进行训练,从而获得可观的性能。 在浏览此仓库时,请记住这一点。 我们已使用此代码在《华尔街日报》(81小时)和Librispeech(1000小时)数据集上训练模型。 WSJ数据集仅可通过LDC获得; 但是,可以从*获取 。 此处介绍的模型使用基于argmax的基本解码器: 在每一帧中选择最可能的角色 根据CTC的规则折叠结果输出字符串:首先删除重复字符,然后删除空白字符。 解码后,经过WSJ数据训练后,您可能期望得到如下输出: 地面真相 模型输出 联合总
【文件预览】:
deepspeech-master
----.gitignore(400B)
----README.md(8KB)
----LICENSE(11KB)
----src()
--------transforms()
----requirements.txt(39B)
----Makefile(209B)
----speech()
--------train.py(5KB)
--------evaluate.py(3KB)
--------utils.py(3KB)
--------decoder.py(5KB)
--------__init__.py(0B)
--------ctc.py(10KB)
--------data()
--------sample_proposals_callback.py(4KB)