bbc模型matlab代码-lip-reading:视频和音频预处理代码以及用于唇读的3DCNN代码

时间:2024-06-17 01:44:18
【文件属性】:

文件名称:bbc模型matlab代码-lip-reading:视频和音频预处理代码以及用于唇读的3DCNN代码

文件大小:19KB

文件格式:ZIP

更新时间:2024-06-17 01:44:18

系统开源

bbc模型matlab代码唇读 该存储库包含使用3D交叉视听卷积神经网络进行唇读的代码。 链接到我们的项目报告: 项目简介 在这个小项目中,我们尝试通过使用类似的网络体系结构,但使用我们自己的数据以及不同的视频和音频预处理技术来重新设计[1],如下所述。 由于音频和视频预处理的大量计算要求,我们在虚拟数据集上训练了模型,该数据集使用随机占位符代替数据,而不是实际强度值。 运行代码的步骤 音频和视频预处理 下载或数据集,然后将它们放置在./dataset/文件夹中 要提取嘴唇区域(边界框),请使用: cd Visual_Preprocessing 。 然后运行python mouth_cropping_in_video.py ,从视频中获取嘴巴区域的作物。 要运行音频预处理: cd Audio_Preperocessing 。 然后运行文件: matlab MMSESTSA84.m ,该文件使用该方法执行音频预处理。 还支持另一种音频预处理,即语音活动检测,这是一种基于能量的方法,可以使用python unsupervised_vad.py运行。 训练CNN模型 要训​​练CNN模型,请


【文件预览】:
lip-reading-master
----Visual_Preprocessing()
--------mouth_detector.py(5KB)
--------test.txt(1B)
--------mouth_cropping_in_video.py(4KB)
----train.py(4KB)
----Audio_Prepocessing()
--------MATLAB VAD()
--------MMSESTSA84.m(8KB)
--------Voice Activity Detection Adaptive.py(695B)
--------unsupervised_vad.py(4KB)
----LICENSE(1KB)
----dataset()
--------.keep(6B)
----README.md(2KB)

网友评论