文件名称:video-speech-recognition:使用机器学习为网络自动生成视频字幕
文件大小:2.69MB
文件格式:ZIP
更新时间:2024-06-18 18:54:19
javascript golang hls video-player html5-video
实时自适应视频语音识别 这是一个概念验证 (PoC),演示了源自 HLS 实时流的自动生成字幕的两种不同的端到端实现。 这个 PoC 在的博客上的博客文章“实时自适应视频语音识别”中被引用。 策略 以服务器为中心的策略是首选策略,假设您可以直接访问编码器(或仅其输出)以进行增强。 音频数据直接从编码器输出中检索,然后发送到那里进行转录。 可以通过多种方式交付成绩单,最符合规范的方式是实时WebVTT片段。 次要策略是以客户为中心的策略。 它可以在任何播放源上实现,但仍然有一个小的后端组件在使用。 音频数据从客户端的浏览器发送到后端组件,然后发送到后端组件进行转录。 一旦收到定时转录,它就会被转换为WebVTT提示,以允许浏览器提供本地渲染功能。 该策略的早期PoC可以在./archive下找到,不建议使用。 内容差异 此 PoC 旨在演示实时内容,但也可应用于 VoD(即时或一次性)