tesseract下载安装
网上有多种办法,这里我只说我用的办法了:
登录到github的官网,然后再搜索栏里输入tesseract搜索
选中下图第一个
然后点击wiki选择我们要下载的版本
这里我安装的是windows版本的,并且我是用python代码跑的
其他语言包下载好之后放在安装目录下的tessdata下就行了
下载好之后双击.exe文件就可以安装了。
安装跟着安装步骤默认点击就行了,不要忘了把安装路径放在path环境变量里,这里我推荐放在最前面,因为我就是放在了最后面导致在dos中死活识别不了这个环境变量。
安装好之后再dos中输如tesseract -v:
显示如上图则证明安装好了。
tesseract使用
tesseract使用
tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile…]
tesseract 图片名 输出文件名 -l 字库文件 -psm pagesegmode 配置文件
例如:
tesseract code.jpg result -l chi_sim -psm 7 nobatch
-l chi_sim 表示用简体中文字库(需要下载中文字库文件,解压后,存放到tessdata目录下去,字库文件扩展名为 .raineddata 简体中文字库文件名为: chi_sim.traineddata)
-psm 7 表示告诉tesseract code.jpg图片是一行文本 这个参数可以减少识别错误率. 默认为 3
configfile 参数值为tessdata\configs 和 tessdata\tessconfigs 目录下的文件名.