用OCR技术识别验证码---tesseract

今天成功编译了Tesseract OCR 1.02 ，就是最近Google支持的那个OCR。原先是HP写的，现在Open source了。支持英文字母和数字。据说辨识程度是世界排名第三的。http://sourceforge.net/projects/tesseract-ocr

编译：
察看dsw文件，发现是VC6的工程，用VC6打开，如果用VS2003或者vs2005编译，会有很多编译错误。开始编译，有很多错误，然后Clean掉，Rebuild ALL,出现681 warning后成功编译。

发布：
bin.dbg下面是编译好的文件，然后把tessdata文件夹拷贝到bin.dbg下，需要测试的图像文件拷贝到此目录。文件必须是未压缩的tif位图格式(bit-map)。而且只能有一个bit的颜色。也就是非黑既白，而不仅仅是灰度。在photoshop里面可以简单地转换。彩色的要先转成灰度(grey scale)才能转成位图(bitmap)

测试：
执行例子图像文件tesseract.exe phototest.tif abc batch
输出结果在abc.txt,识别率竟然是100%。当然你自己做的图片就不一定有这么高。

秒客网

用OCR技术识别验证码---tesseract

相关文章