【文件属性】:
文件名称:Deep-Speaker:实施论文“深度演讲者
文件大小:9KB
文件格式:ZIP
更新时间:2021-05-12 13:26:32
Python
链接到研究文章: :
标题:深度演讲者:端到端神经演讲者嵌入系统
框架:以Tensorflow为后端的Keras
论文中使用的数据集:UID,XiaoDu,MTurk(无在线可用)我的实现中使用的数据集:LibriSpeech
链接到数据集: : (由于数据集大于10GB,所以我未包括该数据集)训练了251位扬声器的模型
卷积模型的最低损失:1.23循环模型的最低损失:1.34 Softmax预训练和三重态损失:尚未合并
文件列表:
input.py-包括读取音频文件,预处理和加载三重批以供模型输入
conv_model.py-卷积Resnet网络实现
recurrent_model.py-GRU网络实现
Pretraining.py-模型的Softmax预训练Triplet_loss.py-网络三重损失的实现
要完成的更正/要添加的修改:
批处理大小:尽管三元组丢失趋向
【文件预览】:
Deep-Speaker-master
----README.md(2KB)
----check_Sr.py(931B)
----conv_model.py(2KB)
----triplet_loss.py(713B)
----recurrent_model.py(1KB)
----pretraining.py(5KB)
----input.py(11KB)