文件名称:voxpopuli:用于表示学习,半监督学习和解释的大型多语言语音语料库
文件大小:43KB
文件格式:ZIP
更新时间:2024-06-01 09:57:06
Python
VoxPopuli 大型多语言语音语料库,用于表示学习,半监督学习和解释。 概述 VoxPopuli提供 10万小时未标记语音数据,支持23种语言 16种语言的1.8K小时转录语音数据 16x15方向的17.3万小时语音到语音解释数据 原始数据是从2009-2020年收集的。 我们感谢欧洲议会创建和共享这些材料。 详细统计 未标记和转录的数据 语 代码 未标注小时数 转录时间 转录的演讲者 转录令牌 LM代币 英语 恩 4.5千 543 1313 480万 60.0百万 德语 德 4.5千 282 531 230万 4980万 法语 r 4.5千 211 534 210万 58.6百万 西班牙语 s 4.4千 166 305 160万 57.3百万 抛光 l 4.5千 111 282 802K 760万 义大利文 它 4.6千 91 306 757K 5
【文件预览】:
voxpopuli-main
----voxpopuli()
--------text()
--------utils.py(418B)
--------get_lm_data.py(8KB)
--------download_audios.py(2KB)
--------get_unlabelled_data.py(3KB)
--------__init__.py(834B)
--------get_s2s_data.py(4KB)
--------get_asr_data.py(3KB)
--------segmentation()
----LICENSE(19KB)
----CONTRIBUTING.md(1KB)
----requirements.txt(45B)
----.gitignore(6B)
----CODE_OF_CONDUCT.md(3KB)
----README.md(18KB)
----extension.md(2KB)