为了照顾更多的小伙伴,大家的学习能力及了解程度都不同,因此大家可以通过以下目录来有选择性的学习,节约大家的时间。
备注: 一定要实操!!!
一定要实操!!!
一定要实操!!!
目录:
#了解和介绍
#下载及安装说明
#工欲善其事必先利其器
#简单尝试(初期用法)案例解析:豆瓣电影TOP250名称爬取
#初级用法(控制链接完成批量爬虫)进阶 案例解析:豆瓣电影TOP250名称爬取
#中级用法(同步完成多项参数爬虫)进阶 案例解析:豆瓣电影TOP250名称爬取
#高级进阶(完成动态类(翻页;滚动加载))爬虫
#了解和介绍
相信能看到这篇文章的小伙伴们应该多多少少对web scraper有些了解,在这里就不再过度阐述。
首先先简单介绍一下web scraper(web scraper 网页刮板)插件
是一款浏览器插件,或者是一款应用程序,用于简单的非代码工程化的爬虫工具,当然正是因为如此所以它的缺点便是对大规模的(数据集大、网页复杂)爬虫工程较为吃力,优点便是简单易操作,能满足小白的日常爬虫需求。
#下载及安装说明
其实一直一来web scraper是Googled的插件,但是因为Google下载商场在国内受到限制,所以为了节约时间我就不介绍Goog浏览器如何下载此插件(感兴趣的可自行查阅相关的资料,有很多)。
而FireFox浏览器插件可以正常在国内访问及安装,并且适配环境和Google浏览器一致,所以建议大家下载Firefox浏览器来使用web scraper插件。
1.下载安装Firefox浏览器(地址:https://www.mozilla.org/zh-CN/firefox/download/thanks/)
2.打开浏览器,点击右上角菜单栏,找到附加组件选项
3.进入附加组件管理器,左侧选择栏选择组件,搜索栏内搜索 web scraper,点击添加到Firefox即可,插件安装成功后,Firefox浏览器右上角便会显示web scraper图标,这表示安装成功了。
#工欲善其事必先利其器(后面的都要认真学了哦)
首先使用插件需要打开浏览器的开发者后台(想深入了解的小伙伴可以打开https://www.cnblogs.com/mojita/p/5769350.html学习)
如何打开呢,首先定格在浏览器页面,然后按 F12
就可以实现(QQ 浏览器 F12
被禁掉了)。有的电脑需要fn+f12,Mac 电脑也可以用 option
+ command
+ I
打开,Win 电脑可以用 Ctrl
+ Shift
+ I
打开。
打开后会发现工具栏最右侧出现web scraper图标,点击后便进入web scraper插件,爬虫工作就从这里展开了!
打开后发现有三个工作栏:
先介绍以下URL:统一资源定位符,说白了就是一个网页地址,常用的https://www.baidu.com/ 这便是一个URL
sitemaps:网站地图
create new sitemap:创建新的网站地图
create new sitemap子工作栏:
create sitemap (创建网站地图),打开后会name和URL选项
import sitemap (导入网站地图),打开后会有个Sitemap JSON的选项,顾名思义,这个选项需要我们自主添加json来创建网站地图,(后面会学习到)
好了,先知道这么多即可,下面开始我们的web scraper爬虫进阶,冲啊