matlab由频域变时域的代码-v2a:自动编码视觉到听觉的感觉替代下载

【文件属性】：

文件名称：matlab由频域变时域的代码-v2a:自动编码视觉到听觉的感觉替代

文件大小：79KB

文件格式：ZIP

更新时间：2024-06-10 12:43:20

系统开源

matlab由频域变时域的代码自动编码的感觉替代视觉听觉（V2A）感官替换代表将图像转换为声音，以帮助盲人。生成的音景应该传达视觉信息，理想情况下代表给定图像上的所有细节，并且声音序列应尽可能短。传统的V2A转换方法应用了显式预定义的功能，该功能将输入图像逐像素转换为音景，并在最后一步将其叠加。这是一种新颖的转换方法的实现，该方法将感觉替换假定为压缩问题。最优压缩是通过称为AEV2A的递归可变自动编码器来学习和计算的。自动编码器将图像作为输入，将其转换为一系列音景，然后以迭代方式重建图像并在画布上绘制。神经网络的实现是基于模型的。可以找到最初从中克隆代码的存储库。 AEV2A进一步建立在（repo）上。关于两个模型的视觉听觉对应关系的视频已被编译并合并。这是和训练有素的模型的视频。有关更多详细信息，请查看此内容或论文。享受这里提供的工具！例如，从单色的旧手机游戏的屏幕快照中记录数据集，并在其上训练AEV2A模型。谁知道，您可能最终会得到一个新的音频编码游戏，盲人（甚至是视力不佳的人）会喜欢它！要求已经在Linux（Ubuntu）上对实现进行了测试，但是无

立即下载

【文件预览】：
v2a-master
----matlab()
--------binaural_noising.m(1KB)
--------t_rm_study.m(2KB)
--------faster_corf()
--------chi_bf_case_study.m(536B)
----config.py(4KB)
----hearing.py(6KB)
----gen_disentangle_data.py(8KB)
----utils.py(2KB)
----test_on_imgs.py(4KB)
----tcn.py(5KB)
----wavegan.py(5KB)
----configs.json(2KB)
----README.md(12KB)
----disentangle_anal.py(32KB)
----audio_gen.py(18KB)
----tf_carfac.py(10KB)
----todo.txt(4KB)
----data()
--------merge_imgs.py(936B)
--------mirror_imgs.py(451B)
--------gen_imgs_from_vids.sh(526B)
--------README.md(1KB)
--------prepare_imgs.py(1KB)
----aev2a.py(44KB)
----.gitignore(1KB)
----run_proto.py(4KB)

秒客网

matlab由频域变时域的代码-v2a:自动编码视觉到听觉的感觉替代

网友评论

相关文章