Python爬虫入门教程 56-100 python爬虫高级技术之验证码篇2-开放平台OCR技术

今日的验证码之旅

今天你要学习的验证码采用通过第三方AI平台开放的OCR接口实现，OCR文字识别技术目前已经比较成熟了，而且第三方比较多，今天采用的是百度的。

注册百度AI平台

官方网址：http://ai.baidu.com/

接下来申请

Python爬虫入门教程 56-100 python爬虫高级技术之验证码篇2-开放平台OCR技术

接下来创建一个简单应用之后，就可以使用了，我们找到

阅读文字识别相关文档

你需要具备基本的阅读第三方文档的能力，打开我们需要的文档

https://cloud.baidu.com/doc/OCR/OCR-API.html#.E9.80.9A.E7.94.A8.E6.96.87.E5.AD.97.E8.AF.86.E5.88.AB

这个页面基本上已经把我们需要做的所有内容都已经标识清楚了

编写获取accesstoken的代码

在目前主流的API开发模式下，都是需要你进行accesstoken的获取的

代码如下，重点需要参照文档进行传参的设计

Python爬虫入门教程 56-100 python爬虫高级技术之验证码篇2-开放平台OCR技术

    def get_accesstoken(self):

        res = requests.post(self.url.format(self.key,self.secret),headers=self.header)

        content = res.text

        if (content):

            return json.loads(content)["access_token"]

得到accesstoken之后，你可以继续下面的操作

import requests

import json

import base64

import urllib.request, urllib.parse

class GetCode(object):

    def __init__(self):

        self.url = "https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id={}&client_secret={}"

        self.api = "https://aip.baidubce.com/rest/2.0/ocr/v1/general_basic?access_token={}"

        self.header = {

            "Content-Type":'application/json; charset=UTF-8'

        }

        self.key = "你的KEY"

        self.secret = "你的SECRET"

验证码识别阶段

普通没有干扰的验证码，我们直接识别即可，但是有的验证码还是有干扰的，在识别之前，需要对它进行基本的处理，我们采用和上篇文章类似的办法进行，对它进行灰度处理和二值化操作。部分代码我直接硬编码了，不过最终识别的效果并没有比想象的优化多少。

 def init_table(self,threshold=155):

        table = []

        for i in range(256):

            if i < threshold:

                table.append(0)

            else:

                table.append(1)

        return table

    def opt_image(self):

        im = Image.open("66.png")

        im = im.convert('L')

        im = im.point(self.init_table(), '1')

        im.save('66_s.png')

        return "66_s.png"

调用验证码接口

调用百度的验证码接口，不使用百度给的模块直接编写。按照它对应的文档，书写即可。

在这个地方尤其注意官方文档提示

Python爬虫入门教程 56-100 python爬虫高级技术之验证码篇2-开放平台OCR技术

    def get_file_content(self,file_path):

        with open(file_path, 'rb') as fp:

            base64_data = base64.b64encode(fp.read())

            s = base64_data.decode()

            data = {}

            data['image'] = s

            decoded_data = urllib.parse.urlencode(data)

            return decoded_data

    def show_code(self):

        image = self.get_file_content(self.opt_image())

        headers = {

            "Content-Type":	"application/x-www-form-urlencoded"

        }

        res = requests.post(self.api.format(self.get_accesstoken()),headers=headers,data=image)

        print(res.text)

通过百度模块调用验证码识别

安装百度AI

pip install baidu-aip

安装之后，就可以使用啦

声明一些常量，你在百度创建应用之后就可以获取
初始化文字识别类
调用对应的方法

Python爬虫入门教程 56-100 python爬虫高级技术之验证码篇2-开放平台OCR技术

参考代码

from aip import AipOcr

# 定义常量

APP_ID = '15736693'

API_KEY = '你的KEY'

SECRET_KEY = '你的SECRET'

# 初始化文字识别

aipOcr=AipOcr(APP_ID, API_KEY, SECRET_KEY)

# 读取图片

filePath = "1.jpg"

def get_file_content(filePath):

    with open(filePath, 'rb') as fp:

        return fp.read()

# 定义参数变量

options = {

    'detect_direction': 'true',

    'language_type': 'CHN_ENG',

}

# 网络图片文字文字识别接口

result = aipOcr.webImage(get_file_content(filePath),options)

print(result)

编码后记

这种通过第三方OCR技术识别验证码的方式，本质上和上篇文章的原理是一致的

在实测过程中发现，没有太多干扰线，搜狗，腾讯，有道 基本表现一致

对于这种方式，学会即可~，道理都是一致的，当然你可以用Python实现一个图片转文字的小应用是没有任何问题的

欢迎关注非本科程序员公众账号, 发送 ocr 获取源码

Python爬虫入门教程 56-100 python爬虫高级技术之验证码篇2-开放平台OCR技术

Python爬虫入门教程 56-100 python爬虫高级技术之验证码篇2-开放平台OCR技术的更多相关文章

Python爬虫入门教程 61-100 写个爬虫碰到反爬了，动手破坏它！
python3爬虫遇到了反爬当你兴冲冲的打开一个网页,发现里面的资源好棒,能批量下载就好了,然后感谢写个爬虫down一下,结果,一顿操作之后,发现网站竟然有反爬措施,尴尬了. 接下来的几篇文章,我们 ...
Python爬虫入门教程 48-100 使用mitmdump抓取手机惠农APP-手机APP爬虫部分
1. 爬取前的分析 mitmdump是mitmproxy的命令行接口,比Fiddler.Charles等工具方便的地方是它可以对接Python脚本. 有了它我们可以不用手动截获和分析HTTP请求和响应 ...
Python爬虫入门教程 43-100 百思不得姐APP数据-手机APP爬虫部分
1. Python爬虫入门教程爬取背景 2019年1月10日深夜,打开了百思不得姐APP,想了一下是否可以爬呢?不自觉的安装到了夜神模拟器里面.这个APP还是比较有名和有意思的. 下面是百思不得姐的 ...
Python爬虫入门教程 37-100 云沃客项目外包网数据爬虫 scrapy
爬前叨叨 2019年开始了,今年计划写一整年的博客呢~,第一篇博客写一下一个外包网站的爬虫,万一你从这个外包网站弄点外快呢,呵呵哒数据分析官方网址为 https://www.clouderwor ...
Python爬虫入门教程 36-100 酷安网全站应用爬虫 scrapy
爬前叨叨 2018年就要结束了,还有4天,就要开始写2019年的教程了,没啥感动的,一年就这么过去了,今天要爬取一个网站叫做酷安,是一个应用商店,大家可以尝试从手机APP爬取,不过爬取APP的博客,我 ...
Python爬虫入门四之Urllib库的高级用法
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...
转 Python爬虫入门四之Urllib库的高级用法
静觅 » Python爬虫入门四之Urllib库的高级用法 1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我 ...
2019-03-22 Python Scrapy 入门教程笔记
Python Scrapy 入门教程入门教程笔记: # 创建mySpider scrapy startproject mySpider # 创建itcast.py cd C:\Users\theDa ...
Python基础入门教程
Python基础入门教程 Python基础教程 Python 简介 Python环境搭建 Python 基础语法 Python 变量类型 Python 运算符 Python 条件语句 Python 循 ...

随机推荐

Java基础——继承、接口
一个对象变量(例如,变量e)可以引用多种实际类型的现象被称为多态(polymorphism). 在运行时能够自动地选择调用哪个方法的现象称为动态绑定(dynamic binding). 在Java程序 ...
Android 音量调节
对于Android的音量调节,可以分为按键调节音量和设置中调节音量.我们首先说一说设置中的音量调节. 一.音量的分类: 1.AudioManager.STREAM_VOICE_CALL 2.Audio ...
hash-6&period;CopyOnWriteArrayList
1.ArrayList的add方法 public boolean add(E e) { ensureCapacityInternal(size + 1); // Increments modCount ...
python 异常类型
1.NameError:尝试访问一个未申明的变量>>> vNameError: name 'v' is not defined 2.ZeroDivisionError:除数为0&g ...
java枚举小结
如何定义一个枚举类? //定义了4个等级 enum Level{ A,B,C,D } 枚举类的实质: class Level{ public static final Level A = new Le ...
Tribles(概率)
Description Problem ATribblesInput: Standard Input Output: Standard Output GRAVITATION, n."Th ...
IP相关常识
IP相关常识一. IP地址概念 IP地址是一个32位的二进制数,它由网络ID和主机ID两部份组成,用来在网络中唯一的标识的一台计算机.网络ID用来标识计算机所处的网段:主机ID用来标识计算机在网段 ...
HTML5 设备上的API
一.Vibration API ,接受两种类型参数 vibrate (unsigned long time) 当参数是unsigned long的时候此时参数表示震动时间. NotSuppor ...
WC2001 高性能计算机
cogs网址这道题DP 设g[0/1][i][a][b]表示第i个机子做了a个A,b个B,0/1表示当前为A/B的最小代价 N^4转移设f[i][a][b]表示前i个机子做了a个A,b个B的最小答 ...
章节0：MySQl学前知识储备
一.数据库基础: 1.数据库(database):保存有组织的数据的容器(通常是一个文件或一组文件). 2.数据库管理系统(DBMS):创建和操纵数据库的软件系统. 3.表(table):某种特定类型 ...