vosk:VOSK语音识别工具包

时间:2024-05-21 06:48:06
【文件属性】:

文件名称:vosk:VOSK语音识别工具包

文件大小:21KB

文件格式:ZIP

更新时间:2024-05-21 06:48:06

multilingual python voice-recognition speech-recognition semi-supervised-learning

有关适用于Android和Linux的Kaldi API,请参见 。 这是一个服务器项目。 这就是Vosk,这是终生的语音识别系统。 概念 截至2019年,基于神经网络的语音识别器在训练中可以使用的语音数据量非常有限,并且需要大量的计算能力和时间来训练和优化参数。 神经网络在像人一样的一杆式学习中存在问题,其决策对于看不见的情况不是很稳健,并且难以理解和纠正。 这就是为什么我们决定建立基于大信号数据库概念的系统的原因。 我们采用音频指纹识别方案。 音频按块分割,这些块基于LSH哈希值存储在数据库中。 在解码过程中,我们只需查找数据库中的数据块即可了解可能的手机。 这有助于我们对解码结果做出正确的决定。 这种方法的优点是: 我们可以在非常简单的硬件上快速训练100000小时的语音数据 我们只需添加样本就可以轻松纠正识别器的行为 我们可以确保识别结果是正确的,因为它可以在训练数据集中充


【文件预览】:
vosk-master
----phash.py(3KB)
----COPYING(10KB)
----phash.i(230B)
----verify.py(777B)
----requirements.txt(20B)
----README.md(4KB)
----index.py(2KB)
----Makefile(390B)
----.gitignore(27B)
----phash.h(97B)
----numpy.i(107KB)
----phash.c(742B)

网友评论