文件名称:期限项目:多说话者识别
文件大小:1.14MB
文件格式:ZIP
更新时间:2024-03-07 18:31:02
Python
学期项目 用于流媒体服务转录的多扬声器识别 作者: zhang 王一凡 产品使命 我们将使用的产品是流式多扬声器自动实时转录(SMART)。 该产品使用多说话者检测和语音对文本进行转录,以在任何流服务上实现电影,视频和歌曲的自动转录。 当前,对于音乐和电影转录,Spotify和Netflix等流媒体服务有时会根据上传者或编辑者是否上传字幕来提供内容的字幕,字幕或歌词,因此,由于它们的作用是手动输入歌词或字幕文件,然后匹配时间范围,以使观看者和听众可以查看字幕。 但是,通过使用SMART,应该能够为流网络上的任何内容自动生成转录,从而为任何内容,任何场景或音乐的一部分自动生成转录,用户始终可以看到谁是发言人或歌手,以及标题是什么。 因此,此产品供蒸汽服务提供商使用,以正确的成绩单查看其内容,从而为用户提供不间断的完整体验。 现在的情况 如今,像Netflix这样的流媒体服务对闭路字幕
【文件预览】:
Term-Project-main
----speaker_diarization()
--------speaker_diarization.py(1KB)
--------Capture1.PNG(7KB)
--------result.md(329B)
--------introduction.md(324B)
----A1 team-8 term project poster.pdf(638KB)
----A1 team8.pptx(129KB)
----audio_recognition.py(1KB)
----google-api script()
--------term_project2.py(2KB)
--------term_project.py(1KB)
--------video sample.mp4(8.2MB)
----google-api-script()
--------readme.md(516B)
----README.md(8KB)