语音的基本概念2-识别过程

时间:2022-09-05 10:32:48

                                 Basic concepts of speech

Recognition process识别过程

        语音识别常见的方式如下:我们得到声音的波形,基于停顿(silence)或者说沉默间隔,把它分离成许多话语(utterances),然后尝试识别每个话语中说的是什么。要做到这一点,我们希望将所有可能词汇的组合,尝试与音频匹配。我们选择最好的匹配组合。在匹配过程中有一些重要的事情。

        首先它是一个特征features的概念。由于参数的数量很大,我们正试图优化它。通常是将语音按帧来分离,然后从中计算得到数字。每一帧的长度通常10毫秒,我们提取39个用来代表整个语音,这叫做特征向量feature vector.。如何生成这些数字的方法是一个活跃研究的课题,但在简单的情况下,它一个频谱的衍生物。

        第二个是模型的概念。模型描述了数学对象,这些对象集合了话语的一些常见的属性。实际上,对于senone的音频模型来说是它三个形态的高斯混合——简单来说,就是一个最可能的特征向量most probable feature vector。从模型的概念来说提出以下问题——模型符合实际有多好,模型的建立好过它的模型内部问题吗,模型对于改变的条件适应的怎么样。

        语音模型被称为隐马尔可夫模型HMM,这是一个通用模型,描述了黑盒通信通道。在这个模型中,语音的过程被描述为一个状态序列,按一定概率彼此变化。这个模型用来描述任何顺序过程,例如语音。对于语音解码来说,它被证明是真正实用的。、

        第三,是匹配的过程的本身。因为它需要一个巨大的时间,比较所有模型的所有特征向量,优化搜索往往是需要许多技巧的。在任何点我们获得最佳匹配的变体variants,并且随着时间的推移拓展它们,为下一帧产生最佳匹配的变体。

语音的基本概念2-识别过程