文件名称:matlab分时代码-SPL3:孟加拉数字的语音识别
文件大小:101.6MB
文件格式:ZIP
更新时间:2024-06-10 14:42:44
系统开源
matlab分时代码孟加拉数字语音识别 语音识别是当今世界上重要且具有挑战性的任务之一。 尽管已进行了很多努力来获得多种语言的最大准确度,但是孟加拉语语音的识别任务仍有改进的余地。 牢记这一点,在这项工作中已经采取了主动行动来识别孟加拉数字(从0到9)。 由于时间和资源的限制,选择了一个小的词汇集。 RPLPwavelet是特征提取方法“感知线性预测”的改进版本,并已通过CNN(卷积神经网络)进行了训练。 已经准备了包含1000个音频文件的数据集,该音频文件在孟加拉语中以0至9表示,每个数字类具有100个文件。 音频文件被记录在不同的嘈杂环境中,例如教室,街道,拥挤的家庭环境等。通过使用不同的数据集测试生成的模型,已实现了显着的分类准确性。 实施细节 特征提取 使用Matlab代码提取方法PLP,RPLP和RPLPwavelet的声音特征。 在这项工作中,使用Rastamat [27]声音处理工具箱来计算PLP倒谱系数。 数据集在这里可用 “特征提取”文件夹包含以三种不同方式对PLP,RPLP和RPLPwavelet进行语音特征提取的实现。 在所有文件夹中,都有一个名为“ Main.m