文件名称:python 多线程爬虫
文件大小:130KB
文件格式:ZIP
更新时间:2020-04-26 11:16:43
爬虫
爬取结果 user.txt 是爬取的博主用户名结果, source.txt 是视频地址集 原理 根据一个热门博主的 usename, 脚本自动会获取博主转过文章的其他博主的 username,并放入爬取队列中,递归爬取。 申明 这是一个正经的爬虫(严肃脸),爬取的资源跟你第一个填入的 username 有很大关系,另外由于某些原因,导致 tumblr 被墙,所以最简单的方式就是用国外 vps 去跑。
【文件预览】:
tumblr_spider-master
----tumblr.py(3KB)
----snapshoots()
--------results.png(132KB)
----LICENSE(1KB)
----requirements.txt(28B)
----.gitignore(1KB)
----README.md(786B)