订单分批matlab代码-end-to-end-lipreading:端到端视听语音识别的Pytorch代码

时间:2024-06-16 22:30:52
【文件属性】:

文件名称:订单分批matlab代码-end-to-end-lipreading:端到端视听语音识别的Pytorch代码

文件大小:28KB

文件格式:ZIP

更新时间:2024-06-16 22:30:52

系统开源

订单分批matlab代码端到端视听语音识别 介绍 这是的存储库。 我们的论文可以找到。 仅视频流基于T. Stafylakis和G. Tzimiropoulos的实现。 可以找到该文件。 此实现包括2层BGRU,该BGRU每层包含1024个单元,而Themos的实现使用具有512个单元的2层BLSTM。 更新 2020-06-06 :请检查我们的唇读模型,该模型可以在LRW数据集上轻松达到85.5%。 依存关系 python 2.7 火炬0.3.1 OpenCVPython的3.4.0 数据集 用所提出的模型在平板上的结果。 在Matlab中,建议用于裁剪嘴ROI的坐标为(x1,y1,x2,y2)=(80、116、175、211)。 请注意,在python中,固定的种植嘴ROI(FxHxW)= [:,115:211,79:175]。 训练 这是训练模型的建议顺序,包括仅视频模型,仅音频模型和视听模型: i)首先通过时间卷积后端进行训练,您可以运行以下脚本: CUDA_VISIBLE_DEVICES='' python main.py --path '' --dataset <datas


【文件预览】:
end-to-end-lipreading-master
----video_only()
--------main.py(8KB)
--------lr_scheduler.py(778B)
--------dataset.py(1KB)
--------cvtransforms.py(1KB)
--------model.py(7KB)
----dataset_prepare()
--------convert_audio.py(827B)
--------convert_video.py(1KB)
--------README.md(449B)
----README.md(4KB)
----audio_only()
--------main.py(8KB)
--------lr_scheduler.py(778B)
--------dataset.py(2KB)
--------model.py(7KB)
----audiovisual()
--------audio_model.py(7KB)
--------video_model.py(7KB)
--------main.py(11KB)
--------lr_scheduler.py(778B)
--------dataset.py(3KB)
--------concat_model.py(1KB)
--------cvtransforms.py(1KB)
----label_sorted.txt(4KB)

网友评论