文件名称:DL_project:TAU DL课程的项目
文件大小:93KB
文件格式:ZIP
更新时间:2024-03-27 00:20:42
Python
一口气说话人识别 这是以下代码的源代码:“一口气说话人识别:您需要一个好的指标吗?” 我们在TAU深度学习2021课程的最终项目中撰写的论文。 数据 为了训练或测试我们的模型,您必须从LibriSpeech项目中下载用于训练目的的,以及和。 Wav2vec重量 我们使用了来自fairseq存储库的预训练的wav2vec网络。 在开始使用我们的源代码之前,请确保下载 。 数据预处理 首先,创建一个名为-'cut_train_data_360_full_repr'的新文件夹。为了在几秒钟内将音频文件剪切为“长度”,请运行以下命令: python data_preprocessing / create_dataset.py {LibriSpeech_data_folder} {cut_train_data_360_full_repr}长度 CLI命令中的“长度”应替换为您要剪切数据的时间量(窗
【文件预览】:
DL_project-main
----eval_fewshot.py(7KB)
----classification()
--------eval()
--------eval_fewshot.py(7KB)
--------train_supervised.py(10KB)
--------distill()
--------__pycache__()
--------util.py(3KB)
--------train_distillation.py(15KB)
--------visualize_embeddings.py(4KB)
--------sv_dataset.py(14KB)
--------Models.py(7KB)
----training()
--------pytorchtools.py(2KB)
--------metric_play.py(14KB)
--------sv_dataset.py(11KB)
--------metric_play_372_EER.py(10KB)
--------Models.py(6KB)
--------backbone_conv.py(14KB)
--------backbone_train.py(14KB)
----helper_functions.py(2KB)
----data_preprocessing()
--------create_conv_representations.py(2KB)
--------create_dataset.py(3KB)
--------create_dataset_with_proper_labels.py(642B)
--------create_post_wav2vec_data.py(4KB)
--------avgpool_offline.py(2KB)
----speakers_map.json(13KB)
----sv_dataset.py(11KB)
----Models.py(6KB)
----.gitignore(24B)
----threshold_values()
--------thresh_for_2021_02_22-10_45_52_PM(18B)
--------thresh_for_2021_02_23-11_10_55_PM(18B)
----README.md(2KB)