文件名称:语谱图matlab代码-LipReading:唇读
文件大小:8.07MB
文件格式:ZIP
更新时间:2024-06-14 20:31:12
系统开源
语谱图matlab代码唇读 这是Lip2AudSpec的keras实现:从无声的嘴唇运动视频进行语音重建。 抽象的 在这项研究中,我们提出了一个深层神经网络,用于从无声的嘴唇运动视频中重建可理解的语音。 我们使用听觉频谱图作为语音的频谱表示法及其相应的声音生成方法,从而产生听起来更自然的重构语音。 我们建议的网络由一个自动编码器组成,用于从听觉频谱图中提取瓶颈特征,然后将其用作我们主要的唇读网络(包括CNN,LSTM和完全连接的层)的目标。 我们的实验表明,自动编码器能够以98%的相关性重建原始听觉频谱图,并且还改善了来自主唇读网络的重建语音的质量。 我们的模型经过不同说话者的共同训练,能够提取出各个说话者的特征,并以令人难以置信的单词识别准确度提供了可重构语音的令人鼓舞的结果。 可以找到这项工作的全文。 要求 我们使用tensorflow,keras,scipy,numpy,cv2,sklearn,IPython,fnmatch在python2中实现了代码。 在运行代码之前,应先安装提到的库。 所有库都可以使用pip轻松安装: pip install tensorflow-gpu k