Python:tesserocr 在 windows 下的安装及简单使用

时间:2023-12-06 15:54:32

tesserocr 是 python 的一个 OCR 库,它是对 tesseract 做的一层 Python API 封装,所以他的核心是tesseract。

tesseract 的安装见 https://www.cnblogs.com/gl1573/p/9876397.html

windows 下安装 tesserocr 是一个坑爹的事情,直接用 pip 安装是不可以的,会报错,只能用 .whl 的方式安装。据说 pip 的方式只能用于 Linux 系统,没验证过。

whl 下载地址:https://github.com/simonflueckiger/tesserocr-windows_build/releases

Python:tesserocr 在 windows 下的安装及简单使用

网站中列出了 tesserocr 和 tesseract 版本的对应关系,选择对应的版本,否则会出现非预期字符。

安装 whl 时要注意几个问题。

1、报如下错误:

Python:tesserocr 在 windows 下的安装及简单使用

报这个错误的原因是改动了python 的目录名称或位置。我用 pycharm 每个项目都是单独的配置,并且我改动过了项目名称导致了这个问题。

解决办法:找到修改 python 所在的目录,打开 scripts 目录,找到 pip-script.py 文件,将第一行的路径改正确了就可以了。

Python:tesserocr 在 windows 下的安装及简单使用

2、python3.6 默认自带的 pip 版本是9.0.1,版本太低,需要升级。升级后,pip-script.py 文件中的版本号也要更改,否则依然认为你没更新。

3、当路径中包含中文时,可能会出现编码问题。

Python:tesserocr 在 windows 下的安装及简单使用

这个问题比较奇怪,中文路径可以肯定的是允许的,实际验证过,应该是 pip-script.py 的文件编码问题,但是我尝试了更改编码方式,也不行。这问题目前有两个解决方案,一是把路径改成英文的,二是从别的可以包含中文路径的地方把 pip-script.py 拷过来改。

安装完成后就可以使用了,示例如下:

import tesserocr
from PIL import Image img = Image.open('1.png')
result = tesserocr.image_to_text(img)
print(result)