1.下载tesseract-ocr-setup-3.02.02.exe 直接安装,简单方便,安装选项默认。下载地址 http://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-setup-3.02.02.exe&can=2&q=
安装会生成目录..\Tesseract-OCR 该目录下初始文件如图:
安装完成后 win+R 打开“运行” 输入 cmd 确定 在命令行下输入 tesseract 显示如图信息表示安装成功:
输入tesseract 后显示的信息是一些命令参数信息
在放有测试用的图片目录下输入 tesseract imagename outputbase [-l eng] [-psm pagesegmode]
其中 :
imagename是图片文件名 如果命令行当前所在目录不是测试用图片存放目录 需要用图片的绝对路径
outputbase是图片识别后输出的文件名 路径规则同imagename 输出文件格式为txt 因此输出文件名不需要加后缀名
-l lang 是选择识别时所用的字库 英文字库名为eng 中文字库名为chi_sim 该参数为可选参数 默认为英文字库
-psm pagesegmode 也是一个可选参数默认值为3 不同的值用来说明待识别图片 提高识别率,不同值的含义如下:
0 =只进行定向和脚本检测(OSD)
1 =通过OSD进行页面自动分割
2 =自动分割,但没有OSD,或OCR
3 =全自动分割,但没有OSD(默认)
.4 =假设待识别图片是一列的文本
5 =假设待识别图片是一个统一的垂直对齐的文本块
6 =假设待识别图片是一个统一的文本块
7 =把图像作为一个单一的文本行
8 =把图像当作一个字
9 =把图像作为一个字在一个圆圈中
10 =把图像当作一个单独的字符
可以使用
tesseract -v 或者tesseract --version 查看tesseract和leptonica等一些库文件的版本信息
tesseract --list-langs 查看可以使用的字库
除了上述方法,还可以从这:https://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-3.02.02.tar.gz&can=2&q= 下载源码自己编译,方法可以参照这里:http://tesseract-ocr.googlecode.com/svn/trunk/vs2008/doc/building.html#building-tesseractocr-with-visual-c-2008-express-edition
如果觉得下载exe文件安装的方法太low 可以尝试一下上面的方法 建议使用visusl studio 2008!
鉴于本人是刚刚接触tesseract和csdn 望各位网友不吝赐教!!!传的两张图片 不知道上传成功没有,可以在相册里找到!!!