文件名称:chinese_text_normalization:中文文本归一化语音处理
文件大小:765KB
文件格式:ZIP
更新时间:2024-06-14 07:20:45
speech-recognition chinese asr text-normalization kaldi-asr
中文文本规范化语音处理 问题 在Google和Github上搜索“文本规范化”(TN),您几乎找不到“可读使用”的文本规范化任务的开源项目。 而是找到了一堆支持TN功能的NLP工具包或框架。 在“支持文本标准化”和“进行文本标准化”之间有很多工作。 原因 TN或多或少地取决于语言。 某些TN处理方法可在多种语言之间共享,但是一个好的TN模块总是或多或少地包含特定于语言的知识和处理方法。 TN是特定于任务的。 即使对于相同的语言,不同的应用程序也需要完全不同的TN。 TN是“脏”的 无论您选择什么工具包和框架,构造和维护一组TN重写规则都是很痛苦的。 TN任务本身隐藏着细微而固有的复杂性,而不是工具或框架中。 成熟的TN模块是一项资产 由于构建和维护TN十分困难,因此实际上对于商业公司而言是一项资产,因此不太可能在开源社区中找到产品级别的TN(如果发现任何问题,请纠正我) TN对
【文件预览】:
chinese_text_normalization-master
----.gitignore(9B)
----LICENSE(1KB)
----README.md(5KB)
----python()
--------cn_tn.py(28KB)
--------run.sh(240B)
--------example_plain.txt(317B)
--------example_kaldi.txt(366B)
----thrax()
--------run_cn.sh(164B)
--------run_en.sh(182B)
--------src()
--------install_thrax.sh(458B)
--------INSTALL.txt(774B)
--------papers()
--------testcase_en.txt(125B)
--------testcase_cn.txt(660B)