第二章 基础知识
2.1语言与语音
-
语言:话语中概括总结出来的规律性的符号
-
语音:语言和声音的组合体,语音是由一连串的音组成语言的声音
-
语音是一种声波,具有以下特征:
- 音色(音质):是区别于其他声音的基本特征
- 音调:声音的高低,取决于声波的频率
- 音强:声音强弱,由振幅决定
- 音长:声音长短,取决于发声时间的长短
-
音节:具有响亮的中心,并被明显感觉到的语音片段
-
音素:语音发音的最小单位
- 元音:
- 定义:当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时,这些声腔完全开放,气流顺利通过,这种音称为元音
- 辅音
- 定义:呼出的声流,由于通路的某一部分封闭起来或受到阻碍,气流被阻不能畅通,而克服发音器官的这种阻碍而产生的音素称为辅音,由声带是否振动,分为浊音和清音
- 浊音:声带振动
- 清音:声带不振动
- 元音:
-
语音、音节、音素之间的关系
-
元音和辅音
- 决定元音音色的主要因素:舌头的形状、舌头在口腔中的形状(舌位)、嘴唇的形状(嘴型)
- 共振峰:元音的重要声学特性,区别不同元音的重要参数,包括共振峰频率和频带宽度。区别男声女声、成人还是儿童,更重要的音素是共振峰频率的高低。
- 产生元音的条件
- 声道受到声带振动的激励引起共振
- 在语音流的持续过程中,声道不发生极端的狭窄,并维持较稳定的形状
- 和鼻腔不发生耦合,声音只从口腔辐射出去
- 产生辅音:上述条件任何一条或多条不满足
- 辅音没有明确的共振峰结构:
- 调音点:发生阻碍的位置
- 调音方式:阻碍的方法,有塞音、摩擦音、塞擦音、鼻音、边音、颤音、通音
2.2 汉语语音学
-
汉语语音的特点
- 音系简单。音素少、音节少。音节的结构也比较简单。
- 由于清辅音多,而且多是弱清音,而且开口呼的音节占全部音节的一半以上,所以汉语语音听感上有清亮、高扬和舒服、柔和的感觉**。**
- 有鲜明的轻重音和儿化韵,所以字词分隔清楚,语言表达准确而丰富。
-
汉语语音的结构
- 音节 = 声母(22个) + 韵母(36个) + 声调(5个)
- 元音 != 韵母,元音、辅音是按发音特征分类的,声母韵母是按音节结构分类的
-
汉语的声调:阴平(一声)、阳平(二声)、上声(三声)、去声(四声)、轻声
-
声调的变化就是浊音基音周期的变化(基频变化)
-
声调曲线:韵母段中基音周期随时间的变化产生了声调
-
3.3语音生成系统和语音感知系统
-
发声器官:肺、气管、喉(包括声带)、咽、鼻、口
- 其中喉的部分称为声门,从声门到嘴唇的呼气通道叫做声道。
- 声道的形状主要由嘴唇、颚和舌头的位置来决定。由声道形状的不断改变,而发出不同的语音。
-
人耳构造
-
外耳:感知声源、声音放大
-
中耳:声阻抗变换
-
内耳:通过机械变换产生神经发放信号
-
-
听觉的两个重要特性
- 时频分析特性:如果信号是一个多频率信号,则产生的行波将沿着基底膜在不同的位置产生最大幅度。从这个意义上讲,耳蜗就象一个频谱分析仪,将复杂的信号分解成各种频率分量。
- 听觉掩蔽效应:并非所有的声音都能被人耳听到,这取决于声音的强度和其频率范围。心理声学中的听觉掩蔽效应是指在一个强信号附近,弱信号将变得不可闻,被掩蔽掉了。掩蔽效应分为同时掩蔽和短时掩蔽。
2.4语音信号生成的数学模型
-
结构:激励模型U(z)、声道模型V(z)、辐射模型R(z),下面是传输函数和总的示意图
-
激励模型
-
激励模型分成浊音激励和清音激励
-
浊音激励
-
产生原因:发浊音时,由于声带不断张开和关闭,将产生间歇的脉冲波。这个脉冲波的波形类似于斜三角形的脉冲
-
单个斜三角波的Z变换的全极模型的形式:(c是常数)
-
斜三角波形串可视为加权了单位脉冲串激励上述单个斜三角波模型的结果
-
单位脉冲串及幅值因子则可表示成下面的z变换形式:
-
整个浊音激励模型可表示为:
-
-
浊音激励波是一个以基音周期为周期的斜三角脉冲串
-
-
-
声道模型
-
分类
-
级联型(适用于一般元音)
-
声道是一组串联的二阶谐振器
-
对于一般元音,使用全极点模型就可以了
-
传输函数可以分解为多个二阶极点的网络的串联
-
-
并联型(适用于非一般元音和大部分辅音)
-
传输函数:
-
图示:
-
-
混合型
-
原因:上述两种模型中,级联型比较简单,可以用于描述一般元音。当鼻化元音或鼻腔参与共振,以及阻塞音或摩擦音等情况时,级联模型就不能胜任了。这时腔体具有反谐振特性,必须考虑加入零点,使之成为零极点模型。对于鼻音、塞音、擦音以及塞擦音等都可以适用。正因为如此,将级联模型和并联模型结合起来的混合模型也许是比较完备的一种共振峰模型。
-
图示:
-
-
-
辐射模型
2.5语音信号的特征分析
-
语音信号的特性:声学特性、时域波形特性、频谱特性、统计特性
-
时域波形特性
- 短时平稳性:语音信号属于短时平稳信号,一般认为在10~30ms内语音信号特性基本上是不变的,或者变化很缓慢
- 清辅音的波形类似白噪声,振幅很小,没有明显的周期性
- 元音具有明显的周期性,且振幅较大,它的周期性对应声带的振动频率,即基音频率,它是声门脉冲的间隔
-
语音信号的语谱图
- **语谱图是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。**语谱图中显示了大量的与语音的语句特性有关的信息,它综合了频谱图和时域波形的特点,明显地显示出语音频谱随时间的变化情况,或者说是一种动态的频谱。
-
语音信号的统计特性
语音信号振幅分布的概率密度,逼近方法:
分布伽玛函数>拉普拉斯函数>高斯分布