有一个英语电影音频文件,想转成文字。老外语速非常非常快且磁带录的不太清晰,所以非常难听懂。
Vovsoft Speech to Text Converter,免费的引擎库识别不行,根本没法看。收费的引擎库,有好多个,无法试了,因为(IBM Cloud, Microsoft Azure, and OpenAI may require a valid credit card for registration and may not be available in some countries such as China and *.) 无法在中国使用。
用了百度云语音识别,有一个“音频文件转写”,有英语,只支持文件URL形式,试了,非常不准,没法看。
再试“短语音识别”(标准版),有英语,支持音频文件上传形式,试了,稍好些,但达不到要求,只能看个雏形。
还有一个“短语音识别极速版”说识别率更好,但只支持中文,没办法。
再试微信,微信只支持实时录入,用 + 功能里面的“语音输入”,这个是实时转文字功能,可以选英语,然后“按住说话”,不能录太长,只能录个几秒,试了下,比百度准多了!算是基本可以看了。
再试网友jianchang512的github的fast-Whisper STT开源模型,《开源免费软件推荐:搭建本地网络内的语音转文字工程》,(https://post.smzdm.com/p/akl563qk/或https://github.com/jianchang512/stt),用medium.en引擎库的话算是很准了!可以用这个! 但引擎库太大且需要的算力太大了,要好久的时间。
OpenAI可能挺强的,没再去试了。
另外,分成不同的人、且按单句来识别,识别准确率会更高些。
如果背景声太强,就很难了,比如劲爆音乐中的快速歌词,可能一个单词都识别不出来。
如同OCR一样,需要固定场景、人物、声音大小、语速要固定要慢且需要清晰再清晰、把其它的干扰降到最低。
从文字OCR识别、语音识别来看,AI还是如同弱智人,达不到正常人的识别能力,要有很清晰的场景才能识别出来。
比如百度的OCR就细分了非常多的识别场景要分开不同的识别程序,微信的中文OCR功能倒是还可以,但遇到多种语言混合的就不行了。
语音识别就更难了。
所以还需要10倍的运算能力提升,可能AI才能达到勉强的水平,可能再等个几十年吧。
未来外语语种翻译专业人才还是不可或缺的。