利用selenium和ffmpeg爬取m3u8 ts视频《进击的巨人》

需求

想看下动漫《进击的巨人》,发现到处被和谐，找不到资源，但是在一个视频网站找到了在线播放，https://www.55cc.cc/dongman/17890/player-2-1.html，然而不能下载下来（喜欢的东西我一般都看很多遍）

找了下，网站没发现robots协议，加上我用的和真人浏览差不多的效率来爬取，应该ok的

于是想爬虫爬取下，但是看源代码发现视频是m3u8的ts流，而且是双层m3u8的，并且m3u8地址还隐藏在js代码中，于是有2种处理方法：

1.直接requests源码，把js代码的部分逐字解析，找出m3u8地址。

2.直接调用浏览器渲染，将渲染后的网页代码拿到，就可以看到iframe标签中src地址了

利用selenium和ffmpeg爬取m3u8 ts视频《进击的巨人》

获取到首层m3u8地址后就简单了，直接requests请求到第二层m3u8地址，这就是真实地址了，下载后可以看到是很多的ts流小文件，于是有2种处理方法了：

1.直接逐个获取ts地址，然而写到本地磁盘的同一个文件，最后转码到mp4(ts格式太占空间)

2.直接调用ffmpeg，能根据m3u8地址下载ts流并合并为一个文件且同步转码为mp4

利用selenium和ffmpeg爬取m3u8 ts视频《进击的巨人》

上述均采用第二种方法，于是写出个简单的该网站的视频爬虫

源代码

from selenium import webdriver

from bs4 import BeautifulSoup

import re

import requests

import os

if __name__ == '__main__':

    urls = ['https://www.55cc.cc/dongman/17890/player-2-'+str(n)+'.html' for n in range(1,14,)]

    for url in urls:

        browser = webdriver.Firefox()

        browser.get(url)

        htmldata=browser.page_source

        browser.close()

        soup = BeautifulSoup(htmldata,'html.parser')

        m3u8 = re.findall(r'(https://\S+)',soup.select('iframe[name="iFrame_play"]')[0].get('src')[1::1])[0]

        r = requests.get(m3u8).text

        m3u8_rel = m3u8.replace('index.m3u8','')+re.split('\n',r)[-1]

        ffmpeg = '"C:\\soft\\ffmpeg\\bin\\ffmpeg.exe"'

        output = "f:\\进击的巨人\\第三季\\"+soup.title.string.replace('集在线观看_动漫_五五影院','').replace(' ','')+".mp4"

        cmd = ffmpeg+" -i "+m3u8_rel+" -vcodec copy -acodec copy "+output

        os.system(cmd)

执行结果

利用selenium和ffmpeg爬取m3u8 ts视频《进击的巨人》

总结

每次都要启动浏览器，有点儿膈应人，后面还是改成headless浏览器即*面浏览器(无头浏览器)来渲染

12集都要顺序执行下载，有点儿慢，后续改成并发执行，一次性同步并发执行12条cmd命令来下载，即多进程方式

优化后

把共12集由原来的串行爬取改为并行爬取，增加效率

利用selenium和ffmpeg爬取m3u8 ts视频《进击的巨人》

from selenium import webdriver

from bs4 import BeautifulSoup

import re

import requests

import os

if __name__ == '__main__':

    urls = ['https://www.55cc.cc/dongman/17890/player-2-'+str(n)+'.html' for n in range(1,14,)]

    cmds = []

    command = ''

    for url in urls:

        browser = webdriver.Firefox()

        browser.get(url)

        htmldata=browser.page_source

        browser.close()

        soup = BeautifulSoup(htmldata,'html.parser')

        m3u8 = re.findall(r'(https://\S+)',soup.select('iframe[name="iFrame_play"]')[0].get('src')[1::1])[0]

        r = requests.get(m3u8).text

        m3u8_rel = m3u8.replace('index.m3u8','')+re.split('\n',r)[-1]

        output = "f:\\进击的巨人\\第三季\\"+soup.title.string.replace('集在线观看_动漫_五五影院','').replace(' ','')+".mp4"

        cmd ="ffmpeg -i "+m3u8_rel+" -vcodec copy -acodec copy "+output

        cmds.append(cmd)

        #os.system(cmd)

    for i in cmds:

        command+='start cmd /c "'+i+'"&'

    os.system(command[:-1:])

知识点

尝试过you-get来爬，不过好像不好用，也许是我菜

浏览器动态渲染 webkit；

python中动态网页爬取方式：

dryscape 作者已经不再维护了，并且作者推荐的库仅是python2，已凉凉；

selenium 可以，但是缺点是必须要打开浏览器；

Phantom JS，无头浏览器，*面浏览器， headless ，借助之可以模拟webkit执行，但是Phantom JS停止更新了且selenium不支持它了，也凉凉；

chrome headless 或者firefox headless可以替代Phantom JS（建议使用，毕竟官方出品，比开源项目动不动有大坑，比如phantomjs坑1000+，或者没人维护等等毛病）

puppeteer也可以替代Phantom JS ，Pyppeteer是其python实现库但是有问题不成熟，不建议用

tampermonkey油猴插件，自动交互，用js注入，可以对网页各种花式操作，比如给网页注入个下载按钮啥的（油猴可以自动交互但不好监控网络请求，chrome extension 可以监控请求但没法监控响应，cdp 全部都可以做但是不好操作 dom）

cheerio 针对DOM的

appium是针对手机端的，一般由于手机端性能问题，反爬策略较少，对于pc端实在没法子的，可以从手机端操作

selenium被识别的程度越来越高，阿里的网站瞬间能识别,但是识别了并不会告诉你，而是返回给你和真人不一样的结果

一般小型网站，直接webkit渲染即可，最简单通用的方式是用 headless 的浏览器，完全模拟人工操作，增大 IP 池，降低访问评率。缺点是效率低，资源成本高

大型网站，是有价值去仔细分析的，一般都是前后分离，传输数据都是json，找到接口requests即可，但是对于加密的，直接请求又可能不行

无头浏览器的资源占用太多，能不用就不用

利用selenium和ffmpeg爬取m3u8 ts视频《进击的巨人》的更多相关文章

如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）
前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...
一起学爬虫——使用selenium和pyquery爬取京东商品列表
layout: article title: 一起学爬虫--使用selenium和pyquery爬取京东商品列表 mathjax: true --- 今天一起学起使用selenium和pyquery爬 ...
利用Python网络爬虫爬取学校官网十条标题
利用Python网络爬虫爬取学校官网十条标题案例代码: # __author : "J" # date : 2018-03-06 # 导入需要用到的库文件 import urll ...
PYTHON 爬虫笔记九&colon;利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集（实战项目二）
利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集目标站点分析今日头条这类的网站制作,从数据形式,CSS样式都是通过数据接口的样式来决定的,所以它的抓取方法和其他网页的抓取方 ...
爬虫（四）Selenium + Headless Chrome爬取Bing图片搜索结果
Bing图片搜索结果是动态加载的,如果我们直接用requests去访问页面爬取数据,那我们只能拿到很少的图片.所以我们使用Selenium + Headless Chrome来爬取搜索结果.在开始前, ...
python 爬取腾讯视频的全部评论
一.网址分析查阅了网上的大部分资料,大概都是通过抓包获取.但是抓包有点麻烦,尝试了F12,也可以获取到评论.以电视剧<在一起>为例子.评论最底端有个查看更多评论猜测过去应该是 Ajax ...
如何手动写一个Python脚本自动爬取Bilibili小视频
如何手动写一个Python脚本自动爬取Bilibili小视频国庆结束之余,某个不务正业的码农不好好干活,在B站瞎逛着,毕竟国庆嘛,还让不让人休息了诶-- 我身边的很多小伙伴们在朋友圈里面晒着出去游玩 ...
python爬虫&colon;爬取慕课网视频
前段时间安装了一个慕课网app,发现不用注册就可以在线看其中的视频,就有了想爬取其中的视频,用来在电脑上学习.决定花两天时间用学了一段时间的python做一做.(我的新书<Python爬虫开发与 ...
Python爬取B站视频信息
该文内容已失效,现已实现scrapy+scrapy-splash来爬取该网站视频及用户信息,由于B站的反爬封IP,以及网上的免费代理IP绝大部分失效,无法实现一个可靠的IP代理池,免费代理网站又是各种 ...

随机推荐

基于 WebSocket 实现 WebGL 3D 拓扑图实时数据通讯同步（一）
今天没有延续上一篇讲的内容,穿插一段小插曲,WebSocket 实时数据通讯同步的问题,今天我们并不是很纯粹地讲 WebSocket 相关知识,我们通过 WebGL 3D 拓扑图来呈现一个有趣的 De ...
Linux for windows cp 数据中文乱码
今天遇到一个很奇葩的问题,不仅让我纠结了半天更影响了我的工作效率找到了一种解决方法.分享和记录下以备自己和后人参考说下情况本人的Linux服务器上的数据要cp到新安装的windows server ...
WCF服务在高并发情况下报目标积极拒绝的异常处理 z
http://www.cnblogs.com/kklldog/p/5037006.html wcf的监控服务,偶尔监控到目标服务会报一个目标积极拒绝的错误.一开始以为服务停止了,上服务器检查目标服务好 ...
Docker基础技术：DeviceMapper
在上一篇介绍AUFS的文章中,大家可以看到,Docker的分层镜像是怎么通过UnionFS这种文件系统做到的,但是,因为Docker首选的AUFS并不在Linux的内核主干里,所以,对于非Ubuntu ...
我在GNU/Linux下使用的桌面环境工具组合
为了使GNU/Linux桌面环境下加载的程序较少以节省内存资源和提高启动时间,我目前并不使用重量级的桌面环境KDE和Gnome,甚至连登录窗界面gdm或xdm都不用,而是直接启动到控制台,登录后调用s ...
【ACM小白成长撸】--计算单词个数
我判断单词个数的方法,根据空格‘ ’的个数分情况当没有单词的时候判断第一个符号,即a[0] == ‘\0’时,赋值给存储个数的数组当遇到空格时,只有前面一个字符不是空格字符,后面一个字符不是空 ...
AT&T汇编语言学习：利用c库、文件读写
AT&T汇编.调用C库函数.读/写文件 d0321:更新读文件代码(图片)以后会更新代码版. d0329:汇编文本读取.简单动画. ＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝ ...
LeetCode第一次刷题
感觉自身编程水平还是差很多,所以刷刷题 LeetCode貌似是一个用的人比较多的题库,下面是第一题给数组和目标和求需要元素的下标 public class Solution { public int ...
About certificate
证书spec, X509, 类似规定了一个目录结构.其中重要内容包括 issuer: who isued this certificate subject: the ID of this certif ...
bitbucket迁移
bitbucket 迁移 1.停止向旧仓库地址提交代码 [dev]2.导入代码至新仓库地址 [op]3.修改本地仓库地址第一种方式:git remote set-url origin [url] ; ...