matlab由频域变时域的代码-v2a:自动编码视觉到听觉的感觉替代

时间:2024-06-10 12:43:20
【文件属性】:

文件名称:matlab由频域变时域的代码-v2a:自动编码视觉到听觉的感觉替代

文件大小:79KB

文件格式:ZIP

更新时间:2024-06-10 12:43:20

系统开源

matlab由频域变时域的代码自动编码的感觉替代 视觉听觉(V2A)感官替换代表将图像转换为声音,以帮助盲人。 生成的音景应该传达视觉信息,理想情况下代表给定图像上的所有细节,并且声音序列应尽可能短。 传统的V2A转换方法应用了显式预定义的功能,该功能将输入图像逐像素转换为音景,并在最后一步将其叠加。 这是一种新颖的转换方法的实现,该方法将感觉替换假定为压缩问题。 最优压缩是通过称为AEV2A的递归可变自动编码器来学习和计算的。 自动编码器将图像作为输入,将其转换为一系列音景,然后以迭代方式重建图像并在画布上绘制。 神经网络的实现是基于模型的。 可以找到最初从中克隆代码的存储库。 AEV2A进一步建立在(repo)上。 关于两个模型的视觉听觉对应关系的视频已被编译并合并。 这是和训练有素的模型的视频。 有关更多详细信息,请查看此内容或论文。 享受这里提供的工具! 例如,从单色的旧手机游戏的屏幕快照中记录数据集,并在其上训练AEV2A模型。 谁知道,您可能最终会得到一个新的音频编码游戏,盲人(甚至是视力不佳的人)会喜欢它! 要求 已经在Linux(Ubuntu)上对实现进行了测试,但是无


【文件预览】:
v2a-master
----matlab()
--------binaural_noising.m(1KB)
--------t_rm_study.m(2KB)
--------faster_corf()
--------chi_bf_case_study.m(536B)
----config.py(4KB)
----hearing.py(6KB)
----gen_disentangle_data.py(8KB)
----utils.py(2KB)
----test_on_imgs.py(4KB)
----tcn.py(5KB)
----wavegan.py(5KB)
----configs.json(2KB)
----README.md(12KB)
----disentangle_anal.py(32KB)
----audio_gen.py(18KB)
----tf_carfac.py(10KB)
----todo.txt(4KB)
----data()
--------merge_imgs.py(936B)
--------mirror_imgs.py(451B)
--------gen_imgs_from_vids.sh(526B)
--------README.md(1KB)
--------prepare_imgs.py(1KB)
----aev2a.py(44KB)
----.gitignore(1KB)
----run_proto.py(4KB)

网友评论