文件名称:speech-to-text-wavenet:语音转文字网
文件大小:231KB
文件格式:ZIP
更新时间:2024-06-06 01:06:58
Python
Speech-to-Text-WaveNet:使用DeepMind的WaveNet进行的端到端句子级英语语音识别 基于DeepMind WaveNet的语音识别的张量。 (此后) 尽管和已经使用tensorflow实现了WaveNet,但它们并未实现语音识别。 这就是为什么我们决定自己实施。 Deepmind最近的一些论文很难复制。 该文件还省略了有关实施的具体细节,我们不得不以自己的方式填补空白。 这里有一些重要的注意事项。 首先,尽管本文将TIMIT数据集用于语音识别实验,但我们使用了免费的VTCK数据集。 其次,论文在膨胀的卷积层之后添加了一个平均池层,以进行下采样。 我们从wav文件中提取了 ,并删除了最终的平均池层,因为原始设置无法在我们的TitanX GPU上运行。 第三,由于TIMIT数据集具有音素标签,因此本文使用两个损失项(音素分类和下一个音素预测)对模型进行
【文件预览】:
speech-to-text-wavenet-master
----recognize.py(1KB)
----test.py(2KB)
----train.py(1KB)
----png()
--------architecture.png(187KB)
--------loss.png(32KB)
----LICENSE(11KB)
----preprocess.py(8KB)
----docker()
--------Dockerfile(1KB)
--------build_script(433B)
--------README.md(902B)
----requirements.txt(76B)
----model.py(1KB)
----.gitignore(1KB)
----CHANGELOG.md(409B)
----README.md(9KB)
----data.py(4KB)