前段时间看到很多微信公众号在转发一篇爬取mobike单车的信息,也不知道什么原因,在网上搜索了下很少有人在爬取ofo共享单车的数据,所以决定看看可以爬取ofo共享单车的那些数据。
抓取数据开始的时候,分析了下可以通过几个渠道看到ofo共享单车的数据,主要是通过ofo公众号,ofo APP、ofo微信小程序 三个渠道可以获取数据,一般情况下手机配置代理以后,APP会出现无法联网的情况,导致无法获取数据;由于之前微信公众号可以在浏览器打开,抓取过程比较的容易,所以我比较倾向通过微信公众号进入获取共享单车数据;
在整个爬取的过程中使用到比较关键的工具fiddler,辅助我们来抓取一些接口地址,这里我共享下ofo网页登陆的入口地址,大家可以通过这个地址登陆ofo来抓取附近单车信息,登陆地址:https://common.ofo.so/newdist/?Login&~next=%22%22。从登陆到开始到获取附近的单车,分析了一下对我们比较有用的几个接口:
1.登陆接口,获取token信息
https://san.ofo.so/ofo/Api/login
2.获取图片验证码接口
https://base.api.ofo.com/ofo/Api/v4/getCaptchaCode
3.获取短信验证码接口
https://base.api.ofo.com/ofo/Api/v4/getVerifyCode
4.获取附近单车的接口
https://san.ofo.so/ofo/Api/nearbyofoCar
一、探索单车接口,获取单车数据
1.首先我们来模拟下实际的操作过程,主要三大步:获取图片验证码,获取短信验证码,获取附近单车。
2.根据上诉步骤我们逆向的来看下获取附近单车数据需要那些那些请求数据,主要的请求参数主要需要token、经度、纬度
3.经度和纬度属于位子信息,token 属于认证信息,所以我们需要看看如何获取token;
4.登录成功以后需要返回token,但是登录需要手机号、图片验证码、手机短信验证码来登录获取token,整个过程分析清楚,分析的时候我们是逆向分析,但是我们实现的时候需要正向一步一步,我们下面来写一下代码实现整个过程。
# -*- coding: utf-8 -*-
# @Time : 2017/10/20 16:33
# @Author : Hunk
# @Email : qiang.liu@ikooo.cn
# @File : getToken.py.py
# @Software:
import json
import requests def get_captcha_code():
"""
获取图片验证码base64位加密数据
:return : captcha,verifyId
"""
url = 'http://base.api.ofo.com/ofo/Api/v4/getCaptchaCode' # 图片验证码获取地址
headers = {'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 10_3_1 like Mac OS X) AppleWebKit/603.1.30 (KHTML, '
'like Gecko) Mobile/14E304 MicroMessenger/6.5.7 NetType/WIFI Language/zh_CN'}
CaptchaCode = requests.post(url, headers=headers, verify=False).text
return json.loads(CaptchaCode)['values'] def code_picture_convert_string(appCode, query, base64Picture): # appCode 接口的认证key,query 验证码类型
"""通过第三方结果获取验证码
:param appCode: 认证ID
:param query: 验证码类型
:param base64Picture: base64 加密的地址
"""
header = {
'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8', # 根据API的要求,定义相对应的Content-Type
"Authorization": "APPCODE " + appCode
}
url = 'http://jisuyzmsb.market.alicloudapi.com/captcha/recognize' # 调用地址
bodys = {'type': query, 'pic': base64Picture} # 请求参数
resultCode = json.loads(requests.post(url, headers=header, data=bodys).text)
return resultCode['result']['code'] def get_verify_code(tel, captcha, verifyId):
"""
获取短信验证码
:param tel: 手机号
:param captcha 图片验证码
:param verifyId: 校验ID
:return: 返回短信验证码
""" url = 'http://base.api.ofo.com/ofo/Api/v4/getVerifyCode' # 获取短信验证码获取地址
headers = {'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 10_3_1 like Mac OS X) AppleWebKit/603.1.30 (KHTML, '
'like Gecko) Mobile/14E304 MicroMessenger/6.5.7 NetType/WIFI Language/zh_CN'}
parameter = {
"tel": tel,
"captcha": captcha,
"verifyId": verifyId }
VerifyCode = requests.post(url, headers=headers, data=parameter, verify=False).text
return json.loads(VerifyCode)['msg'] def get_token(tel, code):
"""
获取登录时返回的token
:param tel: 手机号
:param code: 短信验证码
:return: token
"""
url = 'http://san.ofo.so/ofo/Api/login' # 获取token地址
headers = {'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 10_3_1 like Mac OS X) AppleWebKit/603.1.30 (KHTML, '
'like Gecko) Mobile/14E304 MicroMessenger/6.5.7 NetType/WIFI Language/zh_CN'}
parameter = {"tel": tel, "code": code}
token = requests.post(url, headers=headers, data=parameter, verify=False).text
return json.loads(token)["values"]["token"]
根据上述的代码获取到了token(da37bc80-02ed-11e7-a5c5-d3660a2fde97),这里获取验证码的时候需要通过手动的读取验证码,下面我们来获取下附近单车
# -*- coding: utf-8 -*-
# @Time : 2017/10/19 16:09
# @Author : Hunk
# @Email : qiang.liu@ikooo.cn
# @File : ofoCrawler.py
# @Software: PyCharm import json
import requests def get_ofo_info(longitude, latitude):
url = 'https://san.ofo.so/ofo/Api/nearbyofoCar'
headers = {
'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 10_3_1 like Mac OS X) AppleWebKit/603.1.30 (KHTML, '
'like Gecko) Mobile/14E304 MicroMessenger/6.5.7 NetType/WIFI Language/zh_CN'
}
data = {
'token': 'DA37BC80-02ED-11E7-A5C5-D3660A2FDE97',
'lng': str(longitude), # 经度
'lat': str(latitude) # 纬度
}
result = requests.post(url, data=data, headers=headers, verify=False).text
return json.loads(result)['values']['info']['cars'] if __name__ == '__main__':
data = get_ofo_info(116.4360666275, 39.9310311788)
print(data)
看看我们获取到的数据,拿到的数据我们可以看到每辆单车的编号,目前的位子。
拿到这么多的数据,我们更希望利用数据做一些事情,所以下节介绍下对数据的思考,利用数据我们来分析下单车的运行轨迹。
本教程只提供学习
爬取ofo共享单车信息的更多相关文章
-
【nodejs 爬虫】使用 puppeteer 爬取链家房价信息
使用 puppeteer 爬取链家房价信息 目录 使用 puppeteer 爬取链家房价信息 页面结构 爬虫库 pupeteer 库 实现 打开待爬页面 遍历区级页面 方法一 方法二 遍历街道页面 遍 ...
-
关于小黄车(ofo共享单车)使用的问题
小黄车即ofo共享单车,号称是全球创立最早.成长最快.规模最大的无桩共享单车创业公司,缔造了"共享单车"概念,致力于解决城市出行问题.它的出现给大家带来了方便,作为一个商业运行的公 ...
-
Node.js爬虫-爬取慕课网课程信息
第一次学习Node.js爬虫,所以这时一个简单的爬虫,Node.js的好处就是可以并发的执行 这个爬虫主要就是获取慕课网的课程信息,并把获得的信息存储到一个文件中,其中要用到cheerio库,它可以让 ...
-
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍 源码下载地址:http://download.csdn.net/ ...
-
Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
-
利用 Scrapy 爬取知乎用户信息
思路:通过获取知乎某个大V的关注列表和被关注列表,查看该大V和其关注用户和被关注用户的详细信息,然后通过层层递归调用,实现获取关注用户和被关注用户的关注列表和被关注列表,最终实现获取大量用户信息. 一 ...
-
利用Selenium爬取淘宝商品信息
一. Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样.由于这个性质,Selenium也是一 ...
-
python3编写网络爬虫16-使用selenium 爬取淘宝商品信息
一.使用selenium 模拟浏览器操作爬取淘宝商品信息 之前我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过A ...
-
使用python scrapy爬取知乎提问信息
前文介绍了python的scrapy爬虫框架和登录知乎的方法. 这里介绍如何爬取知乎的问题信息,并保存到mysql数据库中. 首先,看一下我要爬取哪些内容: 如下图所示,我要爬取一个问题的6个信息: ...
随机推荐
-
Quartus II 与 Modelsim 联调【转】
Quartus II 9.0版本的时候软件还有自带的仿真工具,现在安装的是11.0以上版本,才发现 Quartus II 11.0以上取消了软件自带的波形仿真工具,因此需要波形仿真就要调用专业的仿真工 ...
- UML用例图
-
CentOS 6.3 安装 phpmyadmin
安装phpMyAdminphpMyAdmin是一个网络接口,通过它可以管理你的MySQL数据库.首先,我们使CentOS系统RPMForge软件库的phpMyAdmin,而不是官方的CentOS 6. ...
-
HDU1325
http://acm.split.hdu.edu.cn/showproblem.php?pid=1325 #include<stdio.h> #include<algorithm&g ...
-
asp.net 生成、解析条形码和二维码
原文 asp.net 生成.解析条形码和二维码 一.条形码 一维码,俗称条形码,广泛的用于电子工业等行业.比如我们常见的书籍背面就会有条形码,通过扫描枪等设备扫描就可以获得书籍的ISBN(Intern ...
-
HTTP相关整理(上)
这次整理HTTP相关知识点的初衷是因为项目中有大量与网络请求相关的知识细节点,所以这次整理的更多的是日常中用得到的点(参考图解HTTP),另外给打算做FE的新人们一些建议:多重视网络这方面的知识.文章 ...
-
winform webbrowser如何强制使用ie11内核?
webkit.net ,cefsharp,openwebkit.net等这些基于谷歌或者基于firfox内核的浏览器有个共同点,就是必须指定winform为x86的才能使用, 而且使用过程中也是各种坑 ...
-
Android自定义View(三、深入解析控件测量onMeasure)
转载请标明出处: http://blog.csdn.net/xmxkf/article/details/51490283 本文出自:[openXu的博客] 目录: onMeasure什么时候会被调用 ...
-
Linux 小知识翻译 - 「NTP」
这周聊聊「NTP」. 上次,聊了「时区」,也就是时间相关的话题. NTP是「Network Time Protocol」的简称,是为了将网络中计算机的时钟同步到正确时间的协议. PC内部的时钟是相当不 ...
-
Random类(随机数)
前言:总是忘记怎么用.上网一查,都是些有的没的...... 最简单却最常用的方法:Random.Next方法 首先,为Random类实例化一个对象: Random n=new Random(); Ne ...