文件名称:matlab数字识别算法代码-speaker-identification:尝试说话者识别
文件大小:1.76MB
文件格式:ZIP
更新时间:2024-06-12 22:11:20
系统开源
matlab数字识别算法代码说话人识别 说话者识别是一项根据声音自动识别一个人的任务。 我们假设在识别任务之前记录了一组已知语音。 此外,我们在这里不解决验证问题。 有关该主题的详细讨论,请参阅本文。 我们使用的主要技术是MFCC和GMM。 MFCC 梅尔频率倒谱系数是用于语音/语音相关任务的常用功能。 它表示功率谱,但基于非线性梅尔标度。 有一个具有教育意义的MFCC实现(不专注于,请签出。master分支使用BLAS来加速特征提取。 GMM 对于独立于文本的说话人识别,可以将声音源(人声)建模为混合模型,每个模型均遵循高斯分布。 通常,由32个成分组成的GMM应该足以区分几个扬声器。 代码结构 该存储库主要包含C ++实现。 但是,在研究过程中,使用Matlab进行数据和算法探索更加容易。 您可以检出matlab文件夹,尤其是脚本speaker_recognition.m 。 当前,它使用从GRT导出的数据。 简单地使用音频文件并不难(您可以查看MOCHA-TIMIT数据集)。 数据集 似乎不是免费的。 虽然很小,但有两个扬声器,但可以用于初始测试。
【文件预览】:
speaker-identification-master
----.gitignore(374B)
----matlab()
--------TrainingData.csv(3.38MB)
--------mfcc()
--------speaker_recognition.m(2KB)
----Makefile(919B)
----wav-reader.h(401B)
----bench.sh(300B)
----LICENSE(1KB)
----mfcc.cpp(12KB)
----wav-reader.cpp(804B)
----README.md(2KB)
----speaker-recognition.cpp(5KB)
----mfcc.h(6KB)
----mfcc-test.cc(4KB)
----cblas-test.cpp(875B)
----test()
--------5.liftered.csv(25KB)
--------2.fft.csv(451KB)
--------1.audio.csv(409KB)
--------4.cc.csv(27KB)
--------3.lfbe.csv(35KB)