Tesseract常见配置错误解决
引言
想必学习爬虫或者OpenCV的同学对Tesseract不会太陌生,Tesseract的配置想必都是大多数初学者的噩梦,想起去年学爬虫通宵配环境的心酸场景,我决定还是有必要写一篇问题解决文章来帮助因Tesseract配置问题而苦恼的同学们。
Tesseract-OCR常见配置错误:
1、tesseract is not installed or it’s not in your path
错误解释:tesseract没有安装或没有在系统变量中设置
这个问题是恐怕是很多初学者在使用tesseract碰到的最常见的配置错误了,很多同学都会想,明明自己安装好了tesseract,也配好了系统变量,为什么python脚本运行时就是检测不到呢?
其实这个问题的原因是没有修改Python的pytesseract包中默认的指向地址。
解决方法如下:
1、首先找到自己的python环境
可能有些同学不太清楚自己的Python环境地址在哪里,如果自己没有变更地址的话,一般Win10系统下Python环境地址的目录为:
C:\Users\HASEE\AppData\Local\Programs\Python\Python37-32
注意:
1、这里的HASEE为你电脑的用户名,比如你设置的叫LEIMI就是LEIMI,其他亦然。
2、Python37-32这个是Python3.2 ~ Python3.7的文件夹,这个每个人根据自己的环境而定。
2、修改pytesseract.py文件
然后,进入文件夹,Ctrl + F搜索pytesseract,找到完全同名的文件夹点击进入,找到名为 pytesseract.py 的文件,用记事本或其他可以修改代码的软件打开。
Ctrl + F搜索tesseract_cmd
这时我们会发现,后面默认的地址为 tesseract,现在将后面的默认地址改为:
r’你 Tesseract-OCR 的安装目录 \\ tesseract.exe’
如果是默认地址就是下面这个:
r’C:\Program Files (x86) \\ Tesseract-OCR \\ tesseract.exe’
然后再次运行你自己写脚本,就不会出现这个错误了。
2、Error opening data file Tesseract - OCR\tessdata…
错误解释:打开数据文件Tesseract-OCR\tessedata时出错
这个问题一般容易出现在使用Windows系统的同学中,最主要的原因是因为 路径中的‘\’ 容易出现读取错误,从而导致Python脚本报这个错误。
解决方法如下:
1、新建系统变量
打开系统属性界面的环境变量。
新建一个系统变量,路径指向tessdata即可。
这里变量名随便取,只要自己记得就行,然后点击确定,再到PATH中新建变量即可。
最后是最最重要的一点:
请关机,重启,再运行自己的脚本。
不要配完变量就直接运行,然后继续报错,嘀咕着为啥教程没有用,然后继续累自己╮(╯-╰)╭…
欢迎大家在评论中指出文章中的错误
结语
大家好,我是和蔼的撒旦,很高兴能认识大家。
用CSDN快一年半了,以前总是看别人的文章,现在经过一年半的学习之后也积攒了一些经验,就准备开始尝试着自己在CSDN上来写写文章,记录一些常见问题的解决方法,以及分享些代码啥的,希望能够像以前大佬帮我一样帮助到新人,帮助新人们避免因为一些错误而挫伤学习的乐趣,同时也希望能让初学者领略到代码的魅力,也算是传火了吧(。^▽^)。