文件名称:DFT的matlab源代码-DSP-Project:语音识别和语音到文本的转换
文件大小:8.25MB
文件格式:ZIP
更新时间:2024-06-14 23:03:09
系统开源
DFT的matlab源代码DSP项目 基于“定向”对话中使用的预定义语法的IVRS语音识别 语音记录转换为文本 基于“定向”对话中使用的预定义语法的IVRS语音识别 概念 该想法是基于关键字“是”和“否”在IVRS会话期间识别客户的响应。 基于FFT的功率谱密度是信号的估计谱图。 如果将某人说“是”的录音的功率谱密度与“否”进行比较,则通常“是”的谱在高频中具有更多的能量,因为“是”的声音为“ s”。 根据研究论文实验观察得出的假设: 特征是频率0到5000 Hz的FFT值的总和除以5000到11025 Hz的FFT值的总和,这是训练文件的最高频率,因为它们的采样率为22050 Hz。 阈值12将大多数“是”和“否”值分隔开。 语音识别算法 将输入文件分为2个: 训练套 测试仪 计算所有训练文件的特征,并检查直方图的yes值和no值。 选择一个将“是”样本和“否”样本分开的阈值频率F。 对于测试集中的任何样本:要使用的特征是A与B的比率,其中:A:对应于低频的FFT分量的大小之和B:对应于低频的FFT分量的大小之和高频即f = A / B 如果f <F:样本属于“是”群集,否则:样本属