1. OCR
OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说,它们都是一些不规则的字符,这些字符确实是由字符稍加扭曲变换得到的内容。
例如,对于如图1-22和图1-23所示的验证码,我们可以使用OCR技术来将其转化为电子文本,然后爬虫将识别结果提交给服务器,便可以达到自动识别验证码的过程。
图1-22 验证码
图1-23 验证码
tesserocr是Python的一个OCR识别库,但其实是对tesseract做的一层Python API封装,所以它的核心是tesseract。因此,在安装tesserocr之前,我们需要先安装tesseract。
2. 相关链接
- tesserocr GitHub:https://github.com/sirfz/tesserocr
- tesserocr PyPI:https://pypi.python.org/pypi/tesserocr
- tesseract下载地址:http://digi.bib.uni-mannheim.de/tesseract
- tesseract GitHub:https://github.com/tesseract-ocr/tesseract
- tesseract语言包:https://github.com/tesseract-ocr/tessdata
- tesseract文档:https://github.com/tesseract-ocr/tesseract/wiki/Documentation
3. Windows下的安装
在Windows下,首先需要下载tesseract,它为tesserocr提供了支持。
进入下载页面,可以看到有各种.exe文件的下载列表,这里可以选择下载3.0版本。图1-24所示为3.05版本。
图1-24 下载页面
其中文件名中带有dev的为开发版本,不带dev的为稳定版本,可以选择下载不带dev的版本,例如可以选择下载tesseract-ocr-setup-3.05.01.exe。
下载完成后双击,此时会出现如图1-25所示的页面。
图1-25 安装页面
此时可以勾选Additional language data(download)选项来安装OCR识别支持的语言包,这样OCR便可以识别多国语言。然后一路点击Next按钮即可。
windows下
-
配置相应的环境变量
我们需要配置两个环境变量一个是path环境变量,一个新建环境变量 TESSDATA_PREFIX
如下图所示:
加入的值就是上面tesseract安装后所在的目录
-
设置完环境变量后,打开cmd窗口看能否识别tesseract,输入命令tesseract -v
接下来,再安装tesserocr即可,此时直接使用pip安装:
1 |
pip3 install tesserocr pillow |
关于坑!!!
安装 Tesserocr (填坑)
2018.07.20 23:19 375浏览
字号
转载请注明出处:https://www.jianshu.com/u/5e6f798c903a
环境:
Win10_64
Python 3.6.6,安装路径
C:\Python36
(后面会用到该路径)
1. 安装 Tesserocr
tesserocr 是 Python 下的一个 OCR 识别库,该库本质上是对 tesseract 做了一层 Python API 封装。通过 tesserocr 的 PyPI页面,可以找到该项目的 GitHub 仓库 。仓库的 README.rst
中介绍了 Windows 平台的安装方式,原文如下:
The proposed downloads consist of stand-alone packages containing all the Windows libraries needed for execution. This means that no additional installation of tesseract is required on your system.
--snip: 这里跳过了使用 Conda 安装的方式,需要的话可以查看原文档--
pip:Download the wheel file corresponding to your Windows platform and Python installation from simonflueckiger/tesserocr-windows_build/releases and install them via:
> pip install <package_name>.whl
按照文档的意思,由于 stand-alone packages 中包含了 Windows 下所需的所有库。如果使用 stand-alone packages 安装 tesserocr ,便无需再额外安装 tesseract 。
这里一定要通过独立的 .whl
文件安装,不要通过 pip3 install tesserocr
直接安装,因为在 Windows 上会失败——据说这种方式只能用于 Linux,但我没有仔细研究过。
选择安装包时,tesserocr 和 tesseract 的版本要匹配,如 "tesserocr v2.2.2 (tesseract 4.0.0 master)" 释放,表明 "tesserocr-2.2.2" 要配合 "tesseract 4.0.0 master" 使用。如果 tesserocr 与 tesseract 间版本不匹配,识别结果中会出现非预期字符。例如,若是将 "tesserocr-2.2.2" 与 "tesseract 3.5.2" 搭配使用,结果中便会出现非预期字符。
由于,目前 Windows 下 tesseract 的最新稳定版是 3.5.2,于是我试图安装 "tesserocr v2.2.2 (tesseract 3.5.1)" 版本的 .whl
文件,却提示该 .whl
文件不支持当前平台,无法安装。所以,只能安装 "tesserocr v2.2.2 (tesseract 4.0.0 master)" 版本,在后文中需要配合 "tesseract 4.0.0 master" 使用。
1.1. 坑-1
如果依照官方文档,只安装了 tesserocr 的 .whl
文件,并尝试运行如下测试代码:
import tesserocrfrom PIL import Image
image = Image.open('image.jpg') # 可在文末找到image.jpgprint(tesserocr.image_to_text(image))
便会得到如下错误提示:
Traceback (most recent call last):
File "c:/Users/iwhal/Documents/GitHub/python_notes/notes_of_crawler/code_of_learn_is_ignored/test_of_tesserocr .py", line 4, in <module>
print(tesserocr.image_to_text(image))
File "tesserocr.pyx", line 2401, in tesserocr._tesserocr.image_to_textRuntimeError: Failed to init API, possibly an invalid tessdata path: C:\\
Traceback 告诉我们:tessdata 路径无效,无法初始化 API。
错误的原因是:stand-alone packages 虽然包含了 Windows 下所需的所有库,但并是不包含语言数据文件(language data files)。并且数据文件需要被统一放置在 tessdata\
文件夹中,并置于 C:\Python36
内。
获得数据文件有如下两种方式:
方法一:按照下一节的方法安装 "tesseract-ocr-w64-setup-v4.0.0-beta.1.20180608.exe"(因为要与 tesserocr-2.2.2 匹配)。然后,将
C:\Program Files (x86)\Tesseract-OCR\
下的tessdata\
文件夹复制到C:\Python36\
下即可 。方法二:无需安装 tesseract ,只需克隆 tesseract 仓库的主分支,然后将其中的
tessdata\
文件夹复制到C:\Python36\
中。接下来,通过 tessdata_fast 仓库下载eng.traineddata
语言文件,并放置于C:\Python36\tessdata\
内即可。
可见,解决此问题的关键在于获得 tesseract 的 tessdata\
文件夹,并不一定要安装 tesseract ,但 tesseract 的版本一定要正确。
接下来尝试运行之前的代码:
import tesserocrfrom PIL import Image
image = Image.open('image.jpg') # 可在文末找到image.jpgprint(tesserocr.image_to_text(image))
便会输出:
4VC7
1.2. 坑-2
为什么要使用 tessdata_fast 仓库 中的语言数据文件,而不使用 tessdata_best 仓库 或 tessdata 仓库 中的文件喃?
因为,我使用了三个仓库各自的 eng.traineddata
文件,来识别了文末的验证码,发现只有 tessdata_fast 仓库 的识别结果与预期相同,另外两个都没有输出。 但对于更加简单的内容,tessdata 仓库 和 tessdata_best 仓库 都有输出,但前者表现更好。 另外,"tesseract-ocr-w64-setup-v4.0.0-beta.1.20180608.exe" 安装包中同样使用的是 tessdata_fast 仓库 中的 eng.traineddata
文件。
2. 安装 tesseract
通过查看 tesseract 的 GitHub 仓库 的 Wiki 主页,可得知 Windows 下的安装方法 ,原文如下:
Installer for Windows for Tesseract 3.05-02 and Tesseract 4.00-beta are available from Tesseract at UB Mannheim. These include the training tools. Both 32-bit and 64-bit installers are available.
An installer for the OLD version 3.02 is available for Windows from our download page. This includes the English training data. If you want to use another language, download the appropriate training data, unpack it using 7-zip, and copy the .traineddata file into the 'tessdata' directory, probably
C:\Program Files\Tesseract-OCR\tessdata
.To access tesseract-OCR from any location you may have to add the directory where the tesseract-OCR binaries are located to the Path variables, probably
C:\Program Files\Tesseract-OCR
.
大意是在 Tesseract at UB Mannheim,可获得 Windows 安装包。 转到 UB-Mannheim/tesseract/wiki 后可见到下载链接,如下:
The latest installers can be downloaded here: tesseract-ocr-setup-3.05.02-20180621.exe, tesseract-ocr-w32-setup-v4.0.0-beta.1.20180608.exe and tesseract-ocr-w64-setup-v4.0.0-beta.1.20180608.exe (new, 64 bit, experimental). There are also older versions available.
如果需要 older versions 可以去到 https://digi.bib.uni-mannheim.de/tesseract/ 下载。 这里需要安装 "tesseract-ocr-w64-setup-v4.0.0-beta.1.20180608.exe",因为要与 tesserocr-2.2.2 匹配。
另外,tesseract 的文档位于 https://github.com/tesseract-ocr/tesseract/wiki/Documentation
2.1 语言包
通过 wiki 的 Data Files 部分,我们可以下载经过训练的语言包。将下载后的语言包,直接放到C:\Program Files (x86)\Tesseract-OCR\tessdata
即可使用。
注意语言包有三个分支:
在使用语言数据时要注意区分 Tesseract 的版本,3.04 或 3.05 的语言数据需要从 3.04 tree 获取。在 Data Files 中可以了解到更多语言包的分支,及其区别。
3. 附件
4. Linux下的安装
对于Linux来说,不同系统已经有了不同的发行包了,它可能叫作tesseract-ocr或者tesseract,直接用对应的命令安装即可。
Ubuntu、Debian和Deepin
在Ubuntu、Debian和Deepin系统下,安装命令如下:
1 |
sudo apt-get install -y tesseract-ocr libtesseract-dev libleptonica-dev |
CentOS、Red Hat
在CentOS和Red Hat系统下,安装命令如下:
1 |
yum install -y tesseract |
在不同发行版本运行如上命令,即可完成tesseract的安装。
安装完成后,便可以调用tesseract
命令了。
接着,我们查看一下其支持的语言:
1 |
tesseract --list-langs |
运行结果示例:
1 2 3 4 |
List of available languages (3): eng osd equ |
结果显示它只支持几种语言,如果想要安装多国语言,还需要安装语言包,官方叫作tessdata(其下载链接为:https://github.com/tesseract-ocr/tessdata)。
利用Git命令将其下载下来并迁移到相关目录即可,不同版本的迁移命令如下所示。
在Ubuntu、Debian和Deepin系统下的迁移命令如下:
1 2 |
git clone https://github.com/tesseract-ocr/tessdata.git sudo mv tessdata/* /usr/share/tesseract-ocr/tessdata |
在CentOS和Red Hat系统下的迁移命令如下:
1 2 |
git clone https://github.com/tesseract-ocr/tessdata.git sudo mv tessdata/* /usr/share/tesseract/tessdata |
这样就可以将下载下来的语言包全部安装了。
这时我们重新运行列出所有语言的命令:
1 |
tesseract --list-langs |
结果如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 |
List of available languages (107): afr amh ara asm aze aze_cyrl bel ben bod bos bul cat ceb ces chi_sim chi_tra ... |
可以发现,这里列出的语言就多了很多,比如chi_sim就代表简体中文,这就证明语言包安装成功了。
接下来再安装tesserocr即可,这里直接使用pip安装:
1 |
pip3 install tesserocr pillow |
5. Mac下的安装
在Mac下,我们首先使用Homebrew安装ImageMagick和tesseract库:
1 2 |
brew install imagemagick brew install tesseract --all-languages |
接下来再安装tesserocr即可:
1 |
pip3 install tesserocr pillow |
这样我们便完成了tesserocr的安装。
6. 验证安装
接下来,我们可以使用tesseract和tesserocr来分别进行测试。
下面我们以如图1-26所示的图片为样例进行测试。
图1-26 测试样例
该图片的链接为https://raw.githubusercontent.com/Python3WebSpider/TestTess/master/image.png,可以直接保存或下载。
首先用命令行进行测试,将图片下载下来并保存为image.png,然后用tesseract
命令测试:
1 |
tesseract image.png result -l eng && cat result.txt |
运行结果如下:
1 2 |
Tesseract Open Source OCR Engine v3.05.01 with Leptonica Python3WebSpider |
这里我们调用了tesseract
命令,其中第一个参数为图片名称,第二个参数result
为结果保存的目标文件名称,-l
指定使用的语言包,在此使用英文(eng
)。然后,再用cat
命令将结果输出。
运行结果便是图片的识别结果:Python3WebSpider
。可以看到,这时已经成功将图片文字转为电子文本了。
然后还可以利用Python代码来测试,这里就需要借助于tesserocr库了,测试代码如下:
1 2 3 4 |
import tesserocr from PIL import Image image = Image.open('image.png') print(tesserocr.image_to_text(image)) |
我们首先利用Image
读取了图片文件,然后调用了tesserocr
的image_to_text()
方法,再将其识别结果输出。
运行结果如下:
1 |
Python3WebSpider |
另外,我们还可以直接调用file_to_text()
方法,这可以达到同样的效果:
1 2 |
import tesserocr print(tesserocr.file_to_text('image.png')) |
运行结果:
1 |
Python3WebSpider |
如果成功输出结果,则证明tesseract和tesserocr都已经安装成功。