文件名称:SSLVC:使用 Visual Cues 进行声源定位
文件大小:4.35MB
文件格式:ZIP
更新时间:2024-07-24 16:33:34
TeX
CS598ps_project 在本文中,我们提出了一种创造性的方法,通过使用监督学习方法检测和跟踪视觉线索,从单个通道输入为多个源重建 3D 音频。 我们还讨论了一种类似的方法,通过使用面部和语音可能性或简单地对视频流进行多模态说话人识别来改进视频流中说话人的分类。 视频资产在 :
【文件预览】:
SSLVC-master
----requirements.txt(154B)
----src()
--------PCA(562B)
--------classify_audio.py(6KB)
--------NMF-PCA-Subtraction(1KB)
--------Reading a video file in Matlab and Pre-processing it(930B)
----README.md(531B)
----report()
--------report.md(26KB)
--------template.tex(2KB)
--------Makefile(519B)
--------build()
--------mcode.sty(11KB)
--------imgs()
--------spconf.sty(9KB)
----proposals()
--------proposal_marcell.md(3KB)
--------proposal_marcell.pdf(89KB)