语音信号的预处理

1 概述

语音信号是一种非平稳的时变信号，它携带着各种信息。在语音编码、语音合成、语音识别和语音增强等语音处理中都需要提取语音中包含的各种信息。一般而言语音处理的目的有两种：一种是对语音信号进行分析，提取特征参数，用于后续处理；另一种是加工语音信号，例如在语音增强中对含噪语音进行背景噪声抑制，以获得相对“干净”的语音；在语音合成方中需要对分段语音进行拼接平滑，获得主观音质较高的合成语音，这方面的应用同样是建立在分析并提取语音信号信息的基础上的。总之，语音信号分析的目的就在于方便有效地提取并表示语音信号所携带的信息。

根据所分析的参数类型，语音信号分析可以分成时域分析和变换域（频域、倒谱域）分析。其中时域分析方法是最简单、最直观的方法，它直接对语音信号的时域波形进行分析，提取的特征参数主要有语音的短时能量和平均幅度、短时平均过零率、短时自相关函数和短时平均幅度差函数等。

2 语音信号的预处理

实际的语音信号是模拟信号，因此在对语音信号进行数字处理之前，首先要将模拟语音信号s(t)以采样周期T采样，将其离散化为s(n)，采用周期的选取应根据模拟语音信号的带宽（依奈奎斯特采样定理）来确定，以避免信号的频域混叠失真。在对离散后的语音信号进行量化处理过程中会带来一定的量化噪声和失真。在实际中获得数字语音的途径一般有两种，正式的和非正式的。正式的是指大公司或语音研究机构发布的被大家认可的语音数据库，非正式的则是研究者个人录用软件或者硬件电路加麦克风随时随地录制的一些发音数据库，非正式为初学者，可使用多媒体计算机，安装相关的音频处理软件即可获得语音数据文件。语音信号的频率范围通常是300~3400Hz，一般情况下取采样率为8KHZ即可。

有了语音数据文件后，对语音的预处理包括：预加重和加窗分帧等。

2.1 语音信号的预加重处理

对输入的数字语音信号进行预加重，其目的是为了对语音的高频部分进行加重，去除口唇辐射的影响，增加语音的高频分辨率。一般通过传递函数为语音信号的预处理的一阶FIR高通数字滤波器来实现预加重，其中a为预加重系数，。设n时刻的语音采样值为x(n)，经过预加重处理后的结果为，这里a=0.98。

以下是预加重前和预加重后的一段浊音信号及频谱，可以看出，预加重后的频谱在高频部分的幅度得到了提升。

语音信号的预处理

2.2 语音信号的加窗处理

进行预加重数字滤波处理后，接下来进行加窗分帧处理。语音信号是一种随时间而变化的信号，主要分为浊音和清音两大类。浊音的基音周期、清浊音信号幅度和声道参数等都随时间而缓慢变化。由于发声器官的惯性运动，可以认为在一小段时间里（一般为10~30ms）语音信号近似不变，即语音信号具有短时平稳性。这样，可以把语音信号分为一些短段（称为分析帧）来进行处理。语音信号的分帧是采用可移动的有限长度窗口进行加权的方法来实现的。一般每秒的帧数为33~100帧，视实际情况而定。分帧虽然可以采用连续分段的方法，但一般要采用交叠分段的方法，这是为了使帧与帧之间平滑过渡，保持其连续性。前一帧和后一帧的交叠部分称为帧移，帧移与帧长的比值一般取0~1/2。

常用的窗有两种，一种是矩形窗，窗函数如下：

语音信号的预处理

另一种是汉明（Hamming）窗，窗函数如下：

语音信号的预处理

注：矩形窗的主瓣宽度小于汉明窗，具有较高的频谱分辨率，但是矩形窗的旁瓣峰值较大，因此其频谱泄漏比较严重。相比较，虽然汉明窗的主瓣宽度较宽，约大于矩形窗的一倍，但是它的旁瓣衰减较大，具有更平滑的低通特性，能够在较高的程度上反映短时信号的频率特性。

在确定了窗函数以后，对语音信号的分帧处理，实际上就是对各帧进行某种变换或运算。设这种变换或运算用T[]表示，x(n)为输入语音信号，w(n)为窗序列，h(n)是与w(n)有关的滤波器，则各帧经处理后的输出可以表示为：

语音信号的预处理

秒客网

语音信号的预处理

相关文章