文件名称:端到端:用于识别人的端到端模型
文件大小:256KB
文件格式:ZIP
更新时间:2024-03-04 04:32:15
Python
端到端 只是一堆用于音频分类的端到端架构。 架构的输入是原始音频信号的向量。 输出是softmax层,该层将音频分类为10类。 来自以下论文的模型: RawNet:Jung,Jee-weon等。 “ Rawnet:先进的端到端深度神经网络,使用原始波形进行与文本无关的说话者验证。” arXiv预印本arXiv:1904.08104(2019)。 1DCNN,1D Gammatone:Abdoli,Sajjad,Patrick Cardinal和Alessandro Lameiras Koerich。 “使用一维卷积神经网络进行端到端环境声音分类。” 专家系统的应用程序136(2019):252-263。 ENVNETV2:Y. Tokozume,Y。Ushiku和T. Harada,“从类间示例中学习深度声音识别”,arXiv预印本1711.10282,2017年。
【文件预览】:
End-to-end-master
----README.md(839B)
----1DCNN.py(2KB)
----filters.mat(252KB)
----1D Gammatone.py(2KB)
----RawNet.py(2KB)
----ENVNETV2.py(3KB)