首先 https://github.com/tesseract-ocr/tesseract/releases 下载最新版本源代码
sudo apt-get update
sudo apt-get install libicu-devel libpango1.0-dev libcairo-dev
wget https://github.com/tesseract-ocr/tesseract/archive/3.04.00.tar.gz
tar vxzf 3.04.00.tar.gz
cd tesseract-3.04.00
./autogen.sh
./configure
### 注意此过程可能会有一些configure: WARNING提示你需要安装依赖库的务必装上
make
sudo make install
sudo ldconfig
最后执行tesseract -v
有提示版本信息输出表示安装成功了
在java中使用 Tess4j 来调用tesseract api
http://sourceforge.net/projects/tess4j/
下载最新版本
http://nchc.dl.sourceforge.net/project/tess4j/tess4j/3.0%20Beta/Tess4J-3.0-Beta-src.zip
根据提供的文档 http://tess4j.sourceforge.net/docs/index.html ,Tess4j 3.0-Beta才对应tesseract 3.04 版本,版本不要弄错了。
sudo apt-get install ant
unzup Tess4J-3.0-Beta-src.zip
cd Tess4J
ant test
如果测试过程中出现Unable to load library 'leptonica': Native library
可以不用管,主要看 test/result
文件夹下生成的文件,看与根目录的几个图片(如eurotext.png)识别出的结果是否大致相同。