文件名称:matlab图片叠加的代码-SeniorProject:CC用于烹饪视频
文件大小:41.16MB
文件格式:ZIP
更新时间:2024-06-12 13:37:20
系统开源
matlab图片叠加的代码 :egg: 烹饪视频的隐藏式字幕 人工神经网络是研究活动的温床,尤其是在计算机视觉领域。 在该项目中,以各种方式完成了对特定于域的视频字幕的工作。 通过自上而下或等距角度的烹饪视频进行分析,方法是将它们发送到多级管道中,以提取细节,以改善在Youtube和Vimeo等网站上实施的当前字幕系统。该项目寻求结合现有技术,例如光学字符识别,对象识别神经网络和序列到序列学习可从烹饪视频中提取信息,以产生更好的字幕。 该项目的工作显示了使用较弱的现有程序的希望,以便在不需要更多培训的情况下创建领域特定的专业知识,从而利用现有技术的综合力量。 内容 布局和说明 以下自述文件可作为本学期高级项目期间完成的工作的指南。 我包含了为适应视频预处理目的而改进的各种文件,目的是改善字幕。 该项目分为多个处理阶段,并在每个部分中简要说明了工作和示例。 该存储库还包含已处理的示例视频以及所产生的各种信息。 FFMPEG分割 在该项目中使用了FFMPEG,将视频分成单独的帧,这些帧将在后续章节中使用。 其中包括我用来拆分视频的各种bash命令。 结果显示在(256x256尺寸的缩小图像)和(原