Basic concepts of speech

Recognition process识别过程

语音识别常见的方式如下:我们得到声音的波形,基于停顿（silence）或者说沉默间隔，把它分离成许多话语（utterances），然后尝试识别每个话语中说的是什么。要做到这一点,我们希望将所有可能词汇的组合，尝试与音频匹配。我们选择最好的匹配组合。在匹配过程中有一些重要的事情。

首先它是一个特征features的概念。由于参数的数量很大,我们正试图优化它。通常是将语音按帧来分离，然后从中计算得到数字。每一帧的长度通常10毫秒，我们提取39个用来代表整个语音，这叫做特征向量feature vector.。如何生成这些数字的方法是一个活跃研究的课题,但在简单的情况下，它一个频谱的衍生物。

第二个是模型的概念。模型描述了数学对象,这些对象集合了话语的一些常见的属性。实际上,对于senone的音频模型来说是它三个形态的高斯混合——简单来说,就是一个最可能的特征向量most probable feature vector。从模型的概念来说提出以下问题——模型符合实际有多好,模型的建立好过它的模型内部问题吗,模型对于改变的条件适应的怎么样。

语音模型被称为隐马尔可夫模型HMM，这是一个通用模型,描述了黑盒通信通道。在这个模型中，语音的过程被描述为一个状态序列,按一定概率彼此变化。这个模型用来描述任何顺序过程，例如语音。对于语音解码来说，它被证明是真正实用的。、

第三,是匹配的过程的本身。因为它需要一个巨大的时间,比较所有模型的所有特征向量,优化搜索往往是需要许多技巧的。在任何点我们获得最佳匹配的变体variants，并且随着时间的推移拓展它们，为下一帧产生最佳匹配的变体。

语音的基本概念2-识别过程

秒客网

语音的基本概念2-识别过程

Basic concepts of speech

Recognition process识别过程

相关文章