文件名称:Taris:基于TensorFlow 2的基于变压器的在线语音识别系统
文件大小:5.37MB
文件格式:ZIP
更新时间:2024-06-15 08:18:39
python online deep-learning tensorflow transformer
塔里斯 基于TensorFlow 2的基于变压器的在线语音识别系统 关于 Taris是[1]中描述的一种在线语音识别方法。 该系统通过学习计算其中的口头单词数来动态地分割口头句子。 解码以段的动态窗口为条件,而不是像原始序列到序列体系结构中的整个发音那样。 该存储库还维护了当前使用Transformer堆栈而不是原始循环网络[4]实施的视听对齐和融合策略AV Align [2,3]。 概述 为了进行在线解码,Taris学会计算口头句子中的单词数。 正如我们在[1]中所展示的,该任务有助于将语音输入划分为可以Swift解码的段。 但是,为了匹配脱机系统的准确性,需要更长的上下文。 下图说明了一个示例,其中解码器使用两个回溯段和超前段来调节输出模态中给定单词内的所有字符。 一旦中的所有字符decision处理和系统预测空格令牌,通过一个多段的注意分配的进步,并且在计算音频上下文向量以用于
【文件预览】:
Taris-master
----.gitignore(86B)
----LICENSE(16KB)
----extract_faces.py(2KB)
----.github()
--------FUNDING.yml(69B)
----README.md(4KB)
----optuna_search.py(2KB)
----avsr()
--------noise_data()
--------experiment.py(3KB)
--------video.py(5KB)
--------dataset_writer.py(14KB)
--------__init__.py(86B)
--------utils.py(6KB)
--------awgn.py(3KB)
--------metrics.py(3KB)
--------avsr.py(17KB)
--------loss.py(2KB)
--------io_utils.py(12KB)
--------audio.py(1KB)
--------misc()
--------optimiser.py(3KB)
--------visualise()
--------transformer()
----write_records.py(2KB)
----run_audiovisual.py(2KB)
----run_audio.py(2KB)
----img()
--------taris.png(19KB)
--------taris2.png(19KB)