文件名称:dcase-2020-baseline:DCASE 2020挑战的音频字幕基线系统
文件大小:100.81MB
文件格式:ZIP
更新时间:2024-05-23 09:12:45
machine-learning deep-neural-networks deep-learning signal-processing audio-signal-processing
音频字幕DCASE 2020基准系统 欢迎使用2020年DCASE挑战的音频字幕基准系统的资源库。 在这里,您可以找到基准系统的完整代码,包括: 字幕评估部分, 数据集预处理/特征提取部分, Pytorch库的数据处理部分,以及 深层神经网络(DNN)方法部分 第1、2和3部分也存在于单独的存储库中。 您还可以在找到用于音频字幕的字幕评估工具。 还可以在找到Clotho数据集的数据集预处理/特征提取代码。 最后,还可以在找到用于处理PyTorch库的Clotho数据(即,提取的特征和一键编码的单词)的代码(即,用于Clotho数据的PyTorch DataLoader)。 该存储库由维护。 目录 使用预先训练的模型 评估预测 设定说明 主要设定 目录和文件的设置 数据集创建的设置 基准模型的设置 基线方法的设置 太长-未读(TL-DR) 如果您熟悉大多数内容,并且希望尽快使用
【文件预览】:
dcase-2020-baseline-master
----.gitignore(11KB)
----settings()
--------method_baseline.yaml(736B)
--------model_baseline.yaml(519B)
--------dataset_creation.yaml(751B)
--------feature_extraction.yaml(407B)
--------dirs_and_files.yaml(1KB)
--------main_settings.yaml(672B)
----requirements_conda.yaml(270B)
----outputs()
--------.dummy(45B)
----data()
--------.dummy(45B)
----eval_metrics.py(10KB)
----requirements_pip.txt(70B)
----models()
--------__init__.py(196B)
--------baseline_dcase.py(2KB)
----LICENSE(2KB)
----tools()
--------argument_parsing.py(1KB)
--------__init__.py(586B)
--------yaml_loader.py(777B)
--------file_io.py(4KB)
--------csv_functions.py(2KB)
--------features_log_mel_bands.py(2KB)
--------captions_functions.py(4KB)
--------printing.py(2KB)
--------dataset_creation.py(16KB)
--------model.py(5KB)
----data_handlers()
--------clotho_loader.py(3KB)
--------__init__.py(238B)
--------_clotho.py(2KB)
----README.md(22KB)
----dnn_training.py(917B)
----main.py(3KB)
----modules()
--------__init__.py(253B)
--------decoder.py(1KB)
--------encoder.py(3KB)
----coco_caption()
--------get_stanford_models.sh(594B)
--------__init__.py(108B)
--------pycocotools()
--------license.txt(2KB)
--------pycocoevalcap()
----processes()
--------__init__.py(223B)
--------method.py(20KB)
--------dataset.py(13KB)
----clotho_dataset.py(2KB)