文件名称:tensorflow-speech-recognition-challenge:#48 https的解决方案
文件大小:11.37MB
文件格式:ZIP
更新时间:2024-05-22 18:00:53
JupyterNotebook
张量流语音识别挑战 #48使用神经网络小型关键词的解决方案。 指示: 为了重现我的结果: 克隆仓库 下载比赛数据并解压到input目录。 运行run.sh 我在Google Cloud Platform上使用了1070工作站和几个计算实例以及K80。 对于某些模型,我使用了不同的机器来训练不同的折痕,收集它们并运行inference.py以获得装饰和测试预测。 注意:不保证可重复性100%,但是您应该能够在公共排行榜上获得88%的精度,在私人排行榜上获得89%的精度的模型。 输入: 我有三种不同的输入功能,MFCC,对数谱图和对数谱图。 楷模: 对于第一层模型,我使用了Arms的论文《 上的》中描述的模型架构,但对此做了些微调整。 还尝试了1d cnn和resnet。 第一层神经网络架构列表: 完全连接的网络/ MLP。 一维/二维VGG型卷积神经网络。 递归神经网络
【文件预览】:
tensorflow-speech-recognition-challenge-master
----Presentation.pptx(2.27MB)
----README.md(2KB)
----Presentation()
--------Explore_features.ipynb(730KB)
--------plot_training_progress_logmelspectrogram_40_25_10_gg4_s_128.png(145KB)
--------plot_training_progress_logspectrogram_25_18.75_gg4_1_128.png(148KB)
--------mfcc_10_40_20 arm_lstm xl 128.md(54KB)
--------logmelspectrogram_40_25_10 gg4 3 128.md(45KB)
--------rawwav 1dcnn 1 128.md(65KB)
--------d-mfcc_10_40_20_m-arm_dscnn_s-xl.png(76KB)
--------plot_training_progress_logmelspectrogram_40_25_10_join_s_128.png(153KB)
--------logspectrogram_25_18.75 gg4 1 128.md(41KB)
--------mfcc_10_40_20 arm_gru xl 128.md(44KB)
--------logmelspectrogram_40_25_10 gg4 s 128.md(44KB)
--------d-logmelspectrogram_40_25_10_m-resnet_s-18.png(334KB)
--------plot_training_progress_logmelspectrogram_40_25_10_resnet_18_128.png(153KB)
--------d-rawwav_m-1dcnn_s-l.png(235KB)
--------plot_tsne_and_kde_on_raw_wav_PCA.png(192KB)
--------mfcc_10_40_20 arm_dscnn xl 128.md(44KB)
--------plot_training_progress_mfcc_10_40_20_arm_gru_xl_128.png(129KB)
--------mfcc_40_25_10 gg4 3 128.md(43KB)
--------plot_training_progress_logmelspectrogram_40_25_10_arm_crnn_l_128.png(132KB)
--------model_correlations.png(319KB)
--------Visualize_discrepency.ipynb(1.21MB)
--------plot_training_progress_mfcc_10_40_20_arm_lstm_xl_128.png(135KB)
--------logspectrogram_25_18.75 arm_dscnn t 128.md(59KB)
--------d-logspectrogram_25_18.75_m-arm_dscnn_s-t.png(76KB)
--------plot_training_progress_mfcc_40_25_10_gg4_3_128.png(153KB)
--------plot_training_progress_mfcc_10_40_40_ddnn_xl_1280.png(141KB)
--------d-rawwav_m-1dcnn_s-1.png(266KB)
--------plot_tsne_on_raw_wav_PCA.png(293KB)
--------d-mfcc_10_40_20_m-arm_crnn_s-l.png(29KB)
--------d-mfcc_10_40_40_m-ddnn_s-xl.png(21KB)
--------plot_training_progress_logmelspectrogram_40_25_10_arm_crnn_xl_128.png(126KB)
--------d-mfcc_40_25_10_m-gg4_s-3.png(143KB)
--------logmelspectrogram_40_25_10 resnet 34 128.md(169KB)
--------d-logspectrogram_25_18.75_m-join_s-t.png(131KB)
--------rawwav 1dcnn l 128.md(60KB)
--------logspectrogram_25_18.75 arm_crnn xl 128.md(31KB)
--------d-logmelspectrogram_40_25_10_m-arm_crnn_s-xl.png(29KB)
--------plot_training_progress_logmelspectrogram_40_25_10_arm_dscnn_l_128.png(135KB)
--------plot_training_progress_logmelspectrogram_40_25_10_resnet_34_128.png(152KB)
--------d-logmelspectrogram_40_25_10_m-gg4_s-s.png(143KB)
--------plot_tsne_and_kde_on_mfcc_PCA.png(174KB)
--------mfcc_10_40_40 ddnn xl 1280.md(78KB)
--------d-rawwav_m-1dcnn_s-xl.png(319KB)
--------plot_training_progress_logmelspectrogram_40_25_10_gg4_3_128.png(143KB)
--------rawwav 1dcnn xl 64.md(55KB)
--------SHAP_explaination.ipynb(103KB)
--------d-logmelspectrogram_40_25_10_m-arm_crnn_s-l.png(29KB)
--------Plot_training_progress.ipynb(127KB)
--------sample_feature.png(117KB)
--------plot_training_progress_logspectrogram_25_18.75_arm_crnn_xl_128.png(147KB)
--------d-logmelspectrogram_40_25_10_m-arm_dscnn_s-l.png(76KB)
--------d-logmelspectrogram_40_25_10_m-resnet_s-34.png(685KB)
--------plot_training_progress_logspectrogram_25_18.75_arm_dscnn_t_128.png(140KB)
--------d-logspectrogram_25_18.75_m-resnet_s-18t.png(334KB)
--------d-logspectrogram_25_18.75_m-gg4_s-1.png(143KB)
--------logmelspectrogram_40_25_10 arm_dscnn l 128.md(73KB)
--------d-mfcc_10_40_20_m-arm_lstm_s-xl.png(10KB)
--------d-mfcc_10_40_20_m-arm_gru_s-xl.png(9KB)
--------plot_training_progress_logspectrogram_25_18.75_join_t_128.png(154KB)
--------d-logspectrogram_25_18.75_m-arm_crnn_s-xl.png(29KB)
--------logmelspectrogram_40_25_10 arm_crnn xl 128.md(38KB)
--------d-logmelspectrogram_40_25_10_m-join_s-s.png(131KB)
--------plot_training_progress_rawwav_1dcnn_l_128.png(157KB)
--------d-logmelspectrogram_40_25_10_m-gg4_s-2.png(143KB)
--------plot_tsne_on_mfcc_PCA.png(251KB)
--------plot_training_progress_rawwav_1dcnn_1_128.png(157KB)
--------mfcc_10_40_20 arm_crnn l 128.md(52KB)
--------logmelspectrogram_40_25_10 gg4 2 128.md(42KB)
--------plot_training_progress_rawwav_1dcnn_xl_64.png(140KB)
--------logmelspectrogram_40_25_10 resnet 18 128.md(169KB)
--------logspectrogram_25_18.75 resnet 18t 128.md(121KB)
--------plot_training_progress_mfcc_10_40_20_arm_dscnn_xl_128.png(154KB)
--------saddle_point_evaluation_optimizers.gif(714KB)
--------logspectrogram_25_18.75 join t 128.md(66KB)
--------logmelspectrogram_40_25_10 join s 128.md(78KB)
--------plot_training_progress_logmelspectrogram_40_25_10_gg4_2_128.png(136KB)
--------plot_training_progress_mfcc_10_40_20_arm_crnn_l_128.png(126KB)
--------plot_training_progress_logspectrogram_25_18.75_resnet_18t_128.png(144KB)
--------logmelspectrogram_40_25_10 arm_crnn l 128.md(37KB)
--------d-logmelspectrogram_40_25_10_m-gg4_s-3.png(143KB)
----.gitignore(64B)
----python()
--------inference.py(3KB)
--------generate_training_df.py(1KB)
--------util.py(11KB)
--------train.py(6KB)
--------run.sh(1KB)
--------models.py(46KB)
--------second_layer_stacker.py(4KB)
--------generate_silence_wav.py(1KB)
--------generate_folds.py(557B)
--------training_log_parser.py(3KB)
--------gen_training_log_plots.py(3KB)