Basic concepts of speech
Recognition process识别过程
语音识别常见的方式如下:我们得到声音的波形,基于停顿(silence)或者说沉默间隔,把它分离成许多话语(utterances),然后尝试识别每个话语中说的是什么。要做到这一点,我们希望将所有可能词汇的组合,尝试与音频匹配。我们选择最好的匹配组合。在匹配过程中有一些重要的事情。
首先它是一个特征features的概念。由于参数的数量很大,我们正试图优化它。通常是将语音按帧来分离,然后从中计算得到数字。每一帧的长度通常10毫秒,我们提取39个用来代表整个语音,这叫做特征向量feature vector.。如何生成这些数字的方法是一个活跃研究的课题,但在简单的情况下,它一个频谱的衍生物。
第二个是模型的概念。模型描述了数学对象,这些对象集合了话语的一些常见的属性。实际上,对于senone的音频模型来说是它三个形态的高斯混合——简单来说,就是一个最可能的特征向量most probable feature vector。从模型的概念来说提出以下问题——模型符合实际有多好,模型的建立好过它的模型内部问题吗,模型对于改变的条件适应的怎么样。
第三,是匹配的过程的本身。因为它需要一个巨大的时间,比较所有模型的所有特征向量,优化搜索往往是需要许多技巧的。在任何点我们获得最佳匹配的变体variants,并且随着时间的推移拓展它们,为下一帧产生最佳匹配的变体。