live-asr:实时语音到文本系统,可对音频输入进行分块和转录

时间:2024-06-24 14:56:03
【文件属性】:

文件名称:live-asr:实时语音到文本系统,可对音频输入进行分块和转录

文件大小:5KB

文件格式:ZIP

更新时间:2024-06-24 14:56:03

Python

实时自动语音识别 这个 bash 脚本在实时音频输入上运行语音到文本,并将结果转储到一个文件夹中以供进一步处理。 它为 ASR 使用基于云的服务,但可以很容易地适应使用任何东西。 依赖关系 avconv(或 ffmpeg) libmp3lame Python 2.7 用法 您将需要 Speechmatics 用户 ID 和 API 密钥才能运行该脚本。 一旦你有了这些,像这样运行它: ./record.sh {uid} {api-key} 该脚本将持续运行,直到您使用 Ctrl+C 停止它为止。 停止录制后,一个或多个后台进程可能仍在运行,因为它们等待下载任何剩余的转录本。 它当前配置为使用默认音频输入,将其混合为单声道并在转录前将其压缩为 64kbps MP3。 可以通过编辑record.sh中的设置来调整以下参数: 块长度 输出文件夹 语 输入通道 采样率 编解码器和比特率


【文件预览】:
live-asr-master
----speechmatics.py(10KB)
----LICENCE(1KB)
----README.md(1KB)
----record.sh(695B)

网友评论