Deep-Speaker:实施论文“深度演讲者

时间:2024-06-01 07:13:12
【文件属性】:

文件名称:Deep-Speaker:实施论文“深度演讲者

文件大小:9KB

文件格式:ZIP

更新时间:2024-06-01 07:13:12

Python

链接到研究文章: : 标题:深度演讲者:端到端神经演讲者嵌入系统 框架:以Tensorflow为后端的Keras 论文中使用的数据集:UID,XiaoDu,MTurk(无在线可用)我的实现中使用的数据集:LibriSpeech 链接到数据集: : (由于数据集大于10GB,所以我未包括该数据集)训练了251位扬声器的模型 卷积模型的最低损失:1.23循环模型的最低损失:1.34 Softmax预训练和三重态损失:尚未合并 文件列表: input.py-包括读取音频文件,预处理和加载三重批以供模型输入 conv_model.py-卷积Resnet网络实现 recurrent_model.py-GRU网络实现 Pretraining.py-模型的Softmax预训练Triplet_loss.py-网络三重损失的实现 要完成的更正/要添加的修改: 批处理大小:尽管三元组丢失趋向


【文件预览】:
Deep-Speaker-master
----README.md(2KB)
----check_Sr.py(931B)
----conv_model.py(2KB)
----triplet_loss.py(713B)
----recurrent_model.py(1KB)
----pretraining.py(5KB)
----input.py(11KB)

网友评论