文件名称:使用线性预测编码(Lpc),线性预测倒谱系数(Lpcc)和感知线性预测(Plp)对孤立单词的语音识别进行比较,以及模型阶数变化对语音识别率的影响-研究论文
文件大小:245KB
文件格式:PDF
更新时间:2024-06-09 15:43:43
ASR LPC LPCC PLP VQ
机器的自动语音识别(ASR)是六十多年来的研究目标。 尽管取得了所有进步,但在准确性和速度方面,机器仍无法匹敌人类对手的性能,特别是在说话者独立的语音识别的情况下。 因此,当今语音识别研究的重要部分集中在说话者独立语音识别问题上。 在识别之前,必须执行语音处理以获得信号的特征向量。 因此,前端分析起着重要的作用。 原因是其广泛的应用范围以及现有语音识别技术的局限性。 本文的目的是研究,实施和比较那些广泛用于语音识别中的参数化方法,线性预测编码(LPC)技术,线性预测倒谱系数(LPCC)和感知线性预测(PLP)。我们还观察到模型参数变化对识别率的影响。 矢量量化(VQ)用于为每个话语准备单词模型作为模板。 此外,欧几里得距离用作分类器。 使用TI-46文字数据库,比较了干净语音中的前端以及因噪声和频谱可变性而降低的语音。 我们研究了各种SNR级别40dB,35dB,30dB,20dB,15dB,10dB,5dB,0dB和-5dB时语音识别和效果噪声的某些方面。 实验是用高斯白噪声进行的。 据观察,在干净和嘈杂的环境中,LPCC比LPC效果更好。带有DELTA和DELTA-DELTA的PLP在干净和嘈杂的语音中比LPC和LPCC更好。 本文对以上所有语音识别技术进行了比较。 还讨论了每种技术在不同环境下的适用性。