文件名称:Looking-to-Listen
文件大小:140KB
文件格式:ZIP
更新时间:2024-05-20 07:19:27
Python
期待听鸡尾酒会 (英文内容如下) 概述概述 我正在尝试实施Google宣布的“ 。在常规的最新声源分离方法中,有许多分离仅使用声源信息,但是在此提出的方法中,通过使用视频信息,其精度也比常规的要高。方法,实现了声源分离。另外,可以分离所有扬声器的混合声音。 在完成之前需要一些改进和研究。 支持GPU 支持多GPU 支持批量大小(当前仅支持批量大小1) Bi-LSTM层的调查 分离3个或更多扬声器的混合音频 输出形状 如果您有任何意见,我希望收到您的来信。 描述 通过使用运动图像中说话者的面部信息和语音信息来学习该神经网络。模型图如下(摘录自本文)。 最初,它分为声源流和视频流,它们每个都有一个扩展的卷积层。合并每个流的结果,然后合并双向LSTM,然后合并全连接层。 期待听鸡尾酒会 概述概述 我们正在尝试建立一个由Google开发的名为“”的网络。无论是什么样的观众,该网络都可以将语音
【文件预览】:
Looking-to-Listen-master
----train-multi.py(6KB)
----.gitignore(1KB)
----predict.py(5KB)
----README.md(3KB)
----train.py(4KB)
----LICENSE(1KB)
----synthesis_speech.py(4KB)
----readme-files()
--------network.jpg(137KB)
----network.py(11KB)