基于深度学习的唇语识别数据库构建和算法研究_杨明敏(好).caj

时间:2023-05-18 15:59:45
【文件属性】:

文件名称:基于深度学习的唇语识别数据库构建和算法研究_杨明敏(好).caj

文件大小:2.28MB

文件格式:CAJ

更新时间:2023-05-18 15:59:45

唇语识别

本文的研究内容主要包括数据库构建和算法研究两个方面,主要内容如下: (1)中文唇语识别数据集 LRW-1000 的构建:考虑到目前关于中文唇语识别的 研究尚无一个基准的数据库,为了给未来中文唇语识别的研究提供一个数据基准, 本课题根据自采的数据,与中科院计算所 VIPL 组合作构建了一个大型的开放场景下 中文唇语识别数据集,并提出了一个完整的构建流程,详细介绍了构建流程中的设 计到的算法原理。 (2)唇语识别算法:提出了一个新的唇语识别算法,来学习从唇语图像序列到 目标文本序列的映射。为了增强网络对短时依赖的建模能力,结合 DenseNet 和时空卷积提出一个新的网络结构,命名为 D3D。然后使用循环神经网络对得到特征的时 序关联进行学习。同时,针对特定的网络结构,设计了一个三段式的训练方法来解 决模型收敛不稳定的问题,该训练方式对于模型性能有显著提升。


网友评论