音频文件语音转文字TXT的尝试,百度云、微信、fast-Whisper STT开源模型github,AI还是太弱智

时间:2024-10-03 11:21:39

有一个英语电影音频文件,想转成文字。老外语速非常非常快且磁带录的不太清晰,所以非常难听懂。

Vovsoft Speech to Text Converter,免费的引擎库识别不行,根本没法看。收费的引擎库,有好多个,无法试了,因为(IBM Cloud, Microsoft Azure, and OpenAI may require a valid credit card for registration and may not be available in some countries such as China and *.)   无法在中国使用。

用了百度云语音识别,有一个“音频文件转写”,有英语,只支持文件URL形式,试了,非常不准,没法看。

再试“短语音识别”(标准版),有英语,支持音频文件上传形式,试了,稍好些,但达不到要求,只能看个雏形。

还有一个“短语音识别极速版”说识别率更好,但只支持中文,没办法。

再试微信,微信只支持实时录入,用 + 功能里面的“语音输入”,这个是实时转文字功能,可以选英语,然后“按住说话”,不能录太长,只能录个几秒,试了下,比百度准多了!算是基本可以看了。

再试网友jianchang512的github的fast-Whisper STT开源模型,《开源免费软件推荐:搭建本地网络内的语音转文字工程》,(https://post.smzdm.com/p/akl563qk/或https://github.com/jianchang512/stt),用medium.en引擎库的话算是很准了!可以用这个!  但引擎库太大且需要的算力太大了,要好久的时间。

OpenAI可能挺强的,没再去试了。

另外,分成不同的人、且按单句来识别,识别准确率会更高些。

如果背景声太强,就很难了,比如劲爆音乐中的快速歌词,可能一个单词都识别不出来。

如同OCR一样,需要固定场景、人物、声音大小、语速要固定要慢且需要清晰再清晰、把其它的干扰降到最低。

从文字OCR识别、语音识别来看,AI还是如同弱智人,达不到正常人的识别能力,要有很清晰的场景才能识别出来。

比如百度的OCR就细分了非常多的识别场景要分开不同的识别程序,微信的中文OCR功能倒是还可以,但遇到多种语言混合的就不行了。

语音识别就更难了。

所以还需要10倍的运算能力提升,可能AI才能达到勉强的水平,可能再等个几十年吧。

未来外语语种翻译专业人才还是不可或缺的。