利用Python网络爬虫原理,抓取微博上的小视频,这里以我的微博:旭氏美术馆为例,利用Python抓取最近发布的一条短视频,将抓取获得的内容存储在本地目录下。整个爬取过程在DOS命令下进行。
通过抓取微博小视频,对Python网络爬虫,爬取网络视频有所了解学习,为深层次的网络在线视频爬取提供启发。
-
明确抓取内容:
在开始抓取前,首先明确要抓取的内容,这里抓取的是微博用户:旭氏美术馆发布的一条短视频,抓取内容截图如下:
这是一条三分钟左右的短视频,内容是个电影片段,片名是《溺水小刀》。
2 引入Python的requests库:
在进行网络爬取的时候,可以用到urllib、requests库等 ,这里我们用requests这个库,如果没有安装,安装方法如下:
在DOS命令下输入以下指令:
pip install requests -enter
安装过程会显示进度条,成功安装后提示successful。
本地路径定义:
本地路径定义是设置好爬取内容的本地存储地址,这里我的本地路径设置为:D:\python3.6\var,之后若爬取成功,视频内容会存储在该路径下,后面在爬取过程中会用到该地址。-
明确请求头信息:
通过浏览器查看该视频所在的请求信息,注意请求的url,之后会用到,浏览器查看请求信息截图如下:注意这里要爬取视频请求的URL:
https://f.us.sinaimg.cn/002utuIQlx07neVsEcpq01040200SWts0k010.mp4?label=mp4_hd&template=852x480.28&Expires=1535686052&ssig=eU9R9rguQL&KID=unistore,video - 爬取过程:
在DOS命令下输入代码:
抓取后,用二进制打印显示,这里会依据爬取内容大小刷新二进制码,效果有些像黑客帝国,需要等待打印终止,一般会根据文件大小打印,当然越大打印越久,这里我等了三分钟左右吧,这里应该有个gif效果会更好,我就不放gif了(懒惰╮(╯▽╰)╭),放个截图看一下吧,动态的自己去体会吧:)。
二进制打印DOS代码:
打印显示:
利用Python写入到本地文件夹下,这里将爬取后存入本地的文件命名为myvideo,并以MP4格式存储:
成功后会回馈一串数字:
最后到本地存储路径查看爬取内容:
至此,我们就成功爬取了旭氏美术馆的这条微博视频了。
这是我的学习总结,仅供参考。
PS:欢迎关注我的微博:旭氏美术馆