文件名称:FlowerPower:花也有感觉
文件大小:133.29MB
文件格式:ZIP
更新时间:2024-03-04 00:54:58
Python
使用时间卷积网络进行唇读 s , , ,。 内容 深层唇读 介绍 这是的和。 在此存储库中,我们提供了预训练的模型以及用于端到端可视语音识别(口头阅读)的网络设置。 我们在上训练了我们的模型。 网络体系结构基于3D卷积,ResNet-18和MS-TCN。 通过使用此存储库,您可以在LRW数据集上实现87.9%的性能。 该报告还提供了用于特征提取的脚本。 预处理 如,来自LRW数据集的每个视频序列都经过以下处理:1)进行面部检测和面部对齐,2)将每帧对齐到参考平均面部形状3)从对齐后的裁剪出固定的96×96像素宽的ROI脸部图像,以使嘴部区域始终大致位于图像裁剪的中心。4)将裁剪的图像转换为灰度。 您可以运行文件夹中提供的脚本来提取口腔ROI。 0.原始 1.检测 2.转型 3.嘴里的投资回报率 如何安装环境 将存储库克隆到目录中。 我们将该目录称为TCN_LIPREADING_RO