文章目录
- 前言
- 相关参考资料
- 一、前期准备
- 二、安装tesseract
- 三、测试一下结果
- 四、简单排错
- -config-manager: 未找到命令
- --version中的版本中没有或缺少libjpeg,libpng,zlib,libwebp
- 3.相关软件本地yum源
如果本文解决了你的问题,可以点个免费的赞,谢谢
前言
OCR(optical character recognition,光学字符识别)是指直接将包含文本的图像识别为计算机文字(计算机黑白点阵)的技术。
tesseract是github上的OCR开源库,本文章将教你如何在Centos7上安装Tesseract。
相关参考资料
以下是关于Tesseract的常用网址
下载地址:/tesseract/
官方网站:/tesseract-ocr/tesseract
官方文档:/tesseract-ocr/tessdoc
语言包地址:/tesseract-ocr/tessdata
本篇文章文章参考以下连接
/tessdoc/
一、前期准备
更新当前系统版本
yum updata -y
安装yum包管理工具,大部分系统未安装
yum install yum-utils -y
二、安装tesseract
导入公钥
rpm --import /projects/home:Alexander_Pozdnyakov/public_key
增加yum源
yum-config-manager --add-repo /repositories/home:/Alexander_Pozdnyakov/CentOS_7/
安装tessceract
yum install tesseract -y
安装语言包
yum install tesseract-langpack-deu -y
安装中文语言包
yum install tesseract-langpack-chi-sim tesseract-langpack-chi-sim-vert -y
如果需要其他语言包,安装包的格式为tesseract-langpack-xxx
三、测试一下结果
查看当前的版本状态
tesseract -v
tesseract --version
结果如下
tesseract 4.1.3
leptonica-1.76.0
libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7 : libwebp 0.3.0
Found AVX2
Found AVX
Found FMA
Found SSE
查看支持的语言
tesseract --list-langs
结果带有chi_sim chi_sim_vert 表示安装成功
List of available languages (5):
chi_sim
chi_sim_vert
deu
eng
osd
四、简单排错
-config-manager: 未找到命令
请参考上方前期准备
--version中的版本中没有或缺少libjpeg,libpng,zlib,libwebp
运行命令安装相关软件包
yum -y install libjpeg* libpng* libtiff*
3.相关软件本地yum源
为了方便离线安装,特地做了一个本地yum源的包,也可以直接安装rpm包。
Centos7下tesseract-ocr相关本地yum源安装包