多模式语音端点检测 (2005年)

时间:2024-06-12 19:20:30
【文件属性】:

文件名称:多模式语音端点检测 (2005年)

文件大小:255KB

文件格式:PDF

更新时间:2024-06-12 19:20:30

自然科学 论文

在语音信号处理系统中,基于帧能量的语音端点检测(voice activity detection, VAD)往往受到语音段能量不平稳及噪声的影响,为了提高语音端点检测的性能和鲁棒性,引入视觉信息。该文提出采用基于数据驱动的线性变换生成视觉特征,在提出一个基于统计的VAD一般模型的基础上构建两个单模式的VAD系统,通过两步式的融合方法,得到了多模式的VAD系统。实验表明:同时利用音频和视觉信息的多模式VAD比基于帧能量的听觉VAD在帧错误率上有55.0%的相对下降,在断句错误率上有98.5%的相对下降。这一


网友评论