python 手机App数据抓取实战二抖音用户的抓取

时间:2021-05-23 06:51:39

前言

什么?你问我国庆七天假期干了什么?说出来你可能不信,我爬取了cxk坤坤的抖音粉丝数据,我也不知道我为什么这么无聊。

本文主要记录如何使用appium自动化工具实现抖音App模拟滑动,然后分析数据得到粉丝用户信息。


环境准备

  • fiddler
  • appium
  • mitmproxy(mitmdump)
  • python3.6
  • 自带root的安卓虚拟机
  • Android SDK

安卓模拟器需要安装xposed框架并安装JustTrustMe组件,因为抖音会有ssl验证,会导致我们在将数据发送到我们的抓包工具的时候无法联网,所以需要安装这个组件来关闭ssl验证

mitmproxy、AndroidSDK需要加入环境变量,这步就不再叙述


项目准备

首先我们需要给虚拟机安装fiddler、mitmproxy的证书

1)fiddler 主要设置如下

python 手机App数据抓取实战二抖音用户的抓取python 手机App数据抓取实战二抖音用户的抓取python 手机App数据抓取实战二抖音用户的抓取

端口设置可以随意更改,本文设置为8889

电脑主机打开命令行 输入ipconfig查看本机IP

python 手机App数据抓取实战二抖音用户的抓取

设置模拟器的代理

python 手机App数据抓取实战二抖音用户的抓取

接下来打开浏览器,输入 ip:prot 如本机为 117.90.211.134:8889 下载安装fiddler证书  如下步骤

python 手机App数据抓取实战二抖音用户的抓取python 手机App数据抓取实战二抖音用户的抓取

接下来我们就可以使用fiddler正确的抓取手机数据包了

2)mitmproxy证书

我们在Windows系统上常用的是mitmproxy的mitmdump 打开cmd输入mitmdump -p 端口号 就可以启动服务

python 手机App数据抓取实战二抖音用户的抓取

为了方便我们将端口号也设置为8889 但是开启这个的时候需要先关闭fiddler 不然会端口冲突,然后打开模拟器的浏览器看看能否接受数据

python 手机App数据抓取实战二抖音用户的抓取

我们发现出问题了,发现现在直接提示空的响应而不是证书的问题,看到mitmdump报的错误是 killed by block_global 是什么原因呢?

这是mitmdump的自我保护措施,它防止全球网络的连接,意思就是如果是本地局域网它不会阻拦,那该怎么办呢?

有两种解决办法:第一种,将模拟器的网络连接设置为桥接模式,这样就不会出现问题;

第二种办法是启动的时候加入参数 mitmdump -p 8889 --set block_global=false 如下图

python 手机App数据抓取实战二抖音用户的抓取

接下来 安装mitmproxy的证书  浏览器输入网址 mitm.it 然后安装证书

python 手机App数据抓取实战二抖音用户的抓取python 手机App数据抓取实战二抖音用户的抓取

现在再打开网页就不会出现证书的提醒了

这时候我们需要用的主要两个抓包工具的证书就安装完成了,需要注意的是我们每次测试都可能需要重新安装证书,因为我们的主机IP可能会变


App分析

首先呢我们先确认模拟器中的xposed框架的JustTrustMe组件是否开启 不然我们抖音App不能正常访问网络

python 手机App数据抓取实战二抖音用户的抓取

注意以下步骤只能在网络桥接模式下使用(或者使用真机与电脑在同一个网络) 否则fiddler无法抓取到所有的包

首先使用fiddler分析,打开fiddler 并打开抖音进行操作  本项目是爬取cxk坤坤的粉丝数据,所以我们先进入他的抖音主页点进粉丝列表

python 手机App数据抓取实战二抖音用户的抓取

粉丝好多,我们接下来向下滑动,看看当向下滑动刷新出更多粉丝的时候 fiddler会抓取到什么数据

python 手机App数据抓取实战二抖音用户的抓取

会发现每次向下滑动的时候都会有一个含有 aweme/v1/user/follower/list/ 的网址,我们怀疑这就是粉丝数据的接口 我们把这个网址返回来的数据放入 json.cn 看看

python 手机App数据抓取实战二抖音用户的抓取python 手机App数据抓取实战二抖音用户的抓取

还真的就是粉丝数据,会发现每次滑动更新的是二十个粉丝,所以我们就找对了方向,下面我们来分析这个请求

GET https://aweme-hl.snssdk.com/aweme/v1/user/follower/list/?user_id=103313639528&sec_user_id=MS4wLjABAAAAxj2Cuu75g3I2pGOs7jtw5XN6WMiCKbA-jfIjlONRRvM&max_time=1570336550&count=20&offset=0&source_type=1&address_book_access=1&gps_access=1&openudid=3ca06768d1f58615&version_name=8.1.1&ts=1570336895&device_type=OPPO%20R11&ssmix=a&iid=87664447665&app_type=normal&os_api=19&mcc_mnc=46007&device_id=68799320259&resolution=720*1280&device_brand=OPPO&aid=1128&manifest_version_code=811&app_name=aweme&_rticket=1570336895512&os_version=4.4.2&device_platform=android&version_code=811&update_version_code=8112&ac=wifi&dpi=240&uuid=866174010601603&language=zh&channel=tengxun_new HTTP/1.1

我们会发现这个请求的url带有很多很多的参数,没错,这是抖音自身的加密方法,要破解这个可得好一会了,所以我们无法使用requests直接构造请求来获得数据了,那我们该如何获取数据呢?

没错就是使用mitmdump,mitmdump有个最大的好处就是可以与python文件交互,我们可以直接使用python写好命令,使用mitmdump抓包,我们手动的滑动就可以解析出数据了

编写douyin_mitmdump.py文件 代码如下:

import json

#函数名必须这样写 这是mitmdump规则
def response(flow):
#下面这个网址是通过fiddler获取到的 但是有些数据我们无法解密,所以需要用mitmdump捕获数据包然后做分析
if 'aweme-hl.snssdk.com/aweme/v1/user/follower/list' in flow.request.url:
for user in json.loads(flow.response.text)['followers']:
user_info={}
user_info['nickname'] = user['nickname']
user_info['share_id'] = user['uid']
user_info['douyin_id'] = user['short_id']
#有的用户修改了抖音号
if user_info['douyin_id'] == '':
user_info['douyin_id'] = user['unique_id']
print(user_info)

现在打开cmd并切换到项目目录下 执行命令 mitmdump -p 8889 -s douyin_mitmdump.py

python 手机App数据抓取实战二抖音用户的抓取

接下来手动滑动界面看看会不会解析数据

python 手机App数据抓取实战二抖音用户的抓取

好的 现在我们已经成功的分析出来了粉丝数据,但是我们总不能一直鼠标滑动吧?所以我们现在需要使用Appium进行自动化测试模拟滑动


Appium自动化测试模拟滑动

配置信息

Appium是一个开源测试自动化框架,可用于原生,混合和移动Web应用程序测试。 它使用WebDriver协议驱动iOS,Android和Windows应用程序。

比如本文我们就使用appium来实现从点开程序到模拟滑动的全部操作。

首先我们需要在电脑上安装Appium

python 手机App数据抓取实战二抖音用户的抓取

这个相当于appium服务端,我们在执行自动化测试的时候需要先在电脑上打开服务端,然后我们使用程序连接虚拟机或真机执行脚本进行自动化测试 点击start server打开服务端

python 手机App数据抓取实战二抖音用户的抓取

我们首先使用appium 自带的测试程序来试一下如何操作 点击右上角的放大镜符号

进入配置选项界面 开始填写选项信息

python 手机App数据抓取实战二抖音用户的抓取

下面我来解释每个参数都是如何得到的

1)platformName  这是平台名称 我们填写 Andriod 相信不用过多解释

2)platformVersion 这是问平台版本信息,根据各个手机不同自主填写,本文使用的是 Andriod4.4.2

3)deviceName 这个是设备的名称,我们如何获取呢?

  这个时候就用到了我们AndroidSDK中的adb工具了 adb是用来连接电脑与手机的工具 我们把手机进入开发者选项并打开允许USB调试,然后打开命令行输入命令 adb devices看看有没有输出

  python 手机App数据抓取实战二抖音用户的抓取

  返回的127.0.0.1:52001就是设备名称 这个是模拟器的名称,使用真机会不同 (如果没有返回就关闭开发者模式重新打开USB调试多试几次)

4)appPackage、appActivity这俩个参数非常重要,它指定了我们自动化测试的app,这两个参数获取有点麻烦,下面详解如何获取

  首先手机打开App,本文就是抖音了,然后电脑命令行输入 adb shell 进入交互界面 然后输入命令 dumpsys activity | grep mFocusedActivity

  python 手机App数据抓取实战二抖音用户的抓取

  第一个就是包名,第二个就是activity名 我们记下来一会编写进去(activity名称前要跟着包名)

  即 包名com.ss.android.ugc.aweme   activity名com.ss.android.ugc.aweme.main.MainActivity

5)noReset unicodekeyboard resetkeyboard解释会在一会的程序中

然后点击右下方保存配置信息并start session 如果点击start session发现手机自动打开抖音时,就说明我们的配置信息写对了,就可以开始使用了

这些配置信息一会要在我们的python脚本中使用,所以一定要填写正确


内容分析

其实app自动化测试跟网页爬虫很相似,首先分析我们该怎么做

点开抖音这一步已经不用我们去做 然后我们需要依次点左上角放大镜按钮、点击搜索框输入抖音号、点击搜索、点击用户、点击进入主页、点击粉丝、向上滑动

python 手机App数据抓取实战二抖音用户的抓取python 手机App数据抓取实战二抖音用户的抓取python 手机App数据抓取实战二抖音用户的抓取

python 手机App数据抓取实战二抖音用户的抓取python 手机App数据抓取实战二抖音用户的抓取python 手机App数据抓取实战二抖音用户的抓取

我们该如何定位按钮以及输入信息呢?

这又得使用AndroidSDK中的工具了 这次使用 AndroidSDK\tools\monitor.bat 中的monitor 可能有的小伙伴会问 为什么不使用可以查看xpath的魔改版的uiautomatorviewer呢?这是因为我在测试的时候发现现在抖音加入了某种时钟,我们都知道uiautomatorviewer无法获取动态页面的数据,而我发现monitor有的界面却可以,所以使用monitor,下面开始

python 手机App数据抓取实战二抖音用户的抓取

首先用鼠标点击左边画蓝色圈的地方获取当前手机界面数据,然后鼠标点击我们需要的控件,之后右边出现的就是我们需要的信息,我们可以通过resource-id查找指定数据

现在先来编写douyin_appium.py文件测试下能否自动打开抖音并点击左上方放大镜按钮

from appium import webdriver
#WebDriverWait用来加入时间判断,有时候控件元素需要过一段时间才会出现
from selenium.webdriver.support.ui import WebDriverWait
import time #配置信息
option={
"platformName": "Android",
"platformVersion": "4.4.2",
"deviceName": "127.0.0.1:52001",
#自动化测试包名
"appPackage": "com.ss.android.ugc.aweme",
#自动化测试Activity
"appActivity": "com.ss.android.ugc.aweme.main.MainActivity",
#再次启动不需要再次安装
"noReset": True,
#unicode键盘 我们可以输入中文
"unicodekeyboard": True,
#操作之后还原回原先的输入法
"resetkeyboard":True
} #其中的4723就是appium服务启动时的端口号
driver = webdriver.Remote("http://localhost:4723/wd/hub",option) #放大镜按钮
try:
#使用resource-id查找按钮
if WebDriverWait(driver,5).until(lambda x:x.find_element_by_id('com.ss.android.ugc.aweme:id/b3o')):
#点击按钮
driver.find_element_by_id('com.ss.android.ugc.aweme:id/b3o').click()
except:
pass

运行之前首先要开启 appium 服务端,即start server

然后运行python文件

python 手机App数据抓取实战二抖音用户的抓取

好的我们发现已经可以自动的点击放大镜按钮了,那么接下来只需要继续编写文件即可以完成自动化操作了 代码如下

from appium import webdriver
#WebDriverWait用来加入时间判断,有时候控件元素需要过一段时间才会出现
from selenium.webdriver.support.ui import WebDriverWait
import time #配置信息
option={
"platformName": "Android",
"platformVersion": "4.4.2",
"deviceName": "127.0.0.1:52001",
#自动化测试包名
"appPackage": "com.ss.android.ugc.aweme",
#自动化测试Activity
"appActivity": "com.ss.android.ugc.aweme.main.MainActivity",
#再次启动不需要再次安装
"noReset": True,
#unicode键盘 我们可以输入中文
"unicodekeyboard": True,
#操作之后还原回原先的输入法
"resetkeyboard":True
} #其中的4723就是appium服务启动时的端口号
driver = webdriver.Remote("http://localhost:4723/wd/hub",option) #放大镜按钮
try:
#使用resource-id查找按钮
if WebDriverWait(driver,5).until(lambda x:x.find_element_by_id('com.ss.android.ugc.aweme:id/b3o')):
#点击按钮
driver.find_element_by_id('com.ss.android.ugc.aweme:id/b3o').click()
except:
pass #得到窗口大小
def get_size():
x=driver.get_window_size()['width']
y=driver.get_window_size()['height']
return (x,y) #搜索框
try:
# 定位搜索框
if WebDriverWait(driver,3).until(lambda x:x.find_element_by_id('com.ss.android.ugc.aweme:id/ad1')):
#点击搜索框
driver.find_element_by_id('com.ss.android.ugc.aweme:id/ad1').click()
#输入抖音号并点解搜索
driver.find_element_by_id('com.ss.android.ugc.aweme:id/ad1').send_keys("")
driver.find_element_by_id('com.ss.android.ugc.aweme:id/dy8').click()
#点击用户 注意写法 这个控件由于无法获取resource_id与xpath的值 所以只能通过text来查找
driver.find_element_by_android_uiautomator("text(\"用户\")").click()
except:
pass #点进去具体界面
try:
if WebDriverWait(driver,5).until(lambda x:x.find_element_by_id('com.ss.android.ugc.aweme:id/bck')):
#进入用户信息界面
driver.find_element_by_id('com.ss.android.ugc.aweme:id/bck').click()
time.sleep(2)
#点击粉丝数
driver.find_element_by_id('com.ss.android.ugc.aweme:id/akf').click()
except:
pass #得到屏幕尺寸
size = get_size()
#定义滑动
x1 = int(size[0]*0.5)
x2 = int(size[0]*0.7)
y1 = int(size[1]*0.9)
y2 = int(size[1]*0.2) while(True):
time.sleep(0.5)
#模拟滑动
driver.swipe(x1, y1, x2, y2)

效果如下gif图 可以实现从打开抖音到滑动的模拟操作

python 手机App数据抓取实战二抖音用户的抓取


数据入库

现在我们已经完成了appium的自动化模拟滑动,同时我们最开始又写了获取粉丝数据的mitmdump脚本,现在我们将这两个脚本结合起来就可以实现自动分析数据了

第一步运行mitmdump脚本 即到项目目录下运行命令

D:\pythonwork\AppSpiders\douyin_test>mitmdump -s douyin_mitmdump.py -p  --set block_global=false

--set block_global=false如果手机和电脑在同一个局域网可以不加这条指令

然后将手机连接代理到我们主机 ,接着运行douyin_appium.py 现在就可以完成自动拉取粉丝数据了

效果如下图

python 手机App数据抓取实战二抖音用户的抓取

我们还差什么呢?我们总不能在命令行看粉丝数据吧,所以我们需要把抓取到的数据放入本地mongo数据库,首先编写一个douyin_db.py 代码如下

import pymongo
from pymongo.collection import Collection client = pymongo.MongoClient(host='127.0.0.1',port=27017)
#数据库名
db = client['douyin_test'] #存入获取的粉丝数据部分信息
def save_task(item):
task_id_collection = Collection(db, 'task_id')
#updata方法,如果存在相同的share_id就更新,不存在就构建
task_id_collection.update({'share_id':item['share_id']},item,True)

然后我们在 douyin_mitmdump.py中引用这个刚刚编写的入库函数  douyin_mitmdump.py引用如下:

import json
#导入编写的入库函数
from douyin_test.douyin_db import save_task #函数名必须这样写 这是mitmdump规则
def response(flow):
#下面这个网址是通过fiddler获取到的 但是有些数据我们无法解密,所以需要用mitmdump捕获数据包然后做分析
if 'aweme-hl.snssdk.com/aweme/v1/user/follower/list' in flow.request.url:
for user in json.loads(flow.response.text)['followers']:
user_info={}
user_info['nickname'] = user['nickname']
user_info['share_id'] = user['uid']
user_info['douyin_id'] = user['short_id']
#有的用户修改了抖音号
if user_info['douyin_id'] == '':
user_info['douyin_id'] = user['unique_id']
#数据入库
save_task(user_info)

再次运行mitmdump命令与douyin_appium.py 现在就可以实现数据入库了,结果如下

python 手机App数据抓取实战二抖音用户的抓取

以上就是我们爬取到的cxk的粉丝数据,有小伙伴可能会说这种模拟滑动的很慢,可是有些app做了很高级别的加密,我们迫不得已只能用这种方式爬取,本次教程到此结束