无论是是自动化登录还是爬虫,总绕不开验证码,这次就来谈谈python中光学识别验证码模块tesserocr
和pytesseract
。tesserocr
和pytesseract
是python的一个ocr识别库,但其实是对tesseract
做的一层python api封装,pytesseract
是google的tesseract-ocr
引擎包装器;所以它们的核心是tesseract
,因此在安装tesserocr
之前,我们需要先安装tesseract
。
下载安装
下载地址:https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v4.0.0.20181030.exe
下载完成后,双击安装,可以勾选additional language data(download)
选项来安装ocr识别支持的语言包,但下载语言包实在是慢,我们可以直接从https://github.com/tesseract-ocr/tessdata/下载zip的语言包压缩文件,解压后将tessdata-master
中的文件复制到tesseract
的安装目录c:\program files (x86)\tesseract-ocr\tessdata
目录下,最后我们配置下环境变量,我们将c:\program files (x86)\tesseract-ocr
添加到环境变量中。进入命令提示符,输入tesseract
,显示下图结果,说明配置完成
查看安装了的语言包:tesseract --list-langs
显示我一共安装了167种语言包,里边包含英文或者其他字符。
测试
实验用的二维码
基本使用语法tesseract image.png result
(tesseract 图片名称 生成文件名称)
结果
由结果来看,识别出来了p、2和x,但是把c识别成了g,识别度还是比较高,接下来看在python中的使用
python引入tesseract
在python下使用pip命令即可完成下载安装 pip install pytesseract
识别验证码脚本
1
2
3
4
|
import pytesseract
from pil import image
im = image. open ( 'pin.png' )
print (pytesseract.image_to_string(im))
|
结果
这样识别的结果同样跟上文一样,个别字符识别的不是很准确
图像处理
现在网站上的二维码设计的通常很难复杂,如果直接识别的话很难识别出来,下面这段代码是进行灰度处理和二值化
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
|
import pytesseract
from pil import image
im = image. open ( '5.jpg' )
#进行置灰处理
im = im.convert( 'l' )
#这个是二值化阈值
threshold = 150
table = []
for i in range ( 256 ):
if i<threshold:
table.append( 0 )
else :
table.append( 1 )
#通过表格转换成二进制图片,1的作用是白色,0就是黑色
im = im.point(table, "1" )
im.show()
print (pytesseract.image_to_string(im))
|
原图
置灰和二值化后
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持服务器之家。
原文链接:https://nolon.xyz/archives/77/