web scraper插件爬虫进阶(能满足非技术人员的爬虫需求,建议收藏!!!!)

时间:2021-01-24 19:37:03

为了照顾更多的小伙伴,大家的学习能力及了解程度都不同,因此大家可以通过以下目录来有选择性的学习,节约大家的时间。

备注:  一定要实操!!!

           一定要实操!!!

           一定要实操!!!

目录:

#了解和介绍

#下载及安装说明

#工欲善其事必先利其器

#简单尝试(初期用法)案例解析:豆瓣电影TOP250名称爬取

#初级用法(控制链接完成批量爬虫)进阶 案例解析:豆瓣电影TOP250名称爬取

#中级用法(同步完成多项参数爬虫)进阶 案例解析:豆瓣电影TOP250名称爬取

#高级进阶(完成动态类(翻页;滚动加载))爬虫

#了解和介绍

相信能看到这篇文章的小伙伴们应该多多少少对web scraper有些了解,在这里就不再过度阐述。

首先先简单介绍一下web scraper(web scraper 网页刮板)插件

是一款浏览器插件,或者是一款应用程序,用于简单的非代码工程化的爬虫工具,当然正是因为如此所以它的缺点便是对大规模的(数据集大、网页复杂)爬虫工程较为吃力,优点便是简单易操作,能满足小白的日常爬虫需求。

#下载及安装说明

其实一直一来web scraper是Googled的插件,但是因为Google下载商场在国内受到限制,所以为了节约时间我就不介绍Goog浏览器如何下载此插件(感兴趣的可自行查阅相关的资料,有很多)。

而FireFox浏览器插件可以正常在国内访问及安装,并且适配环境和Google浏览器一致,所以建议大家下载Firefox浏览器来使用web scraper插件。

1.下载安装Firefox浏览器(地址:https://www.mozilla.org/zh-CN/firefox/download/thanks/

2.打开浏览器,点击右上角菜单栏,找到附加组件选项

web scraper插件爬虫进阶(能满足非技术人员的爬虫需求,建议收藏!!!!)

3.进入附加组件管理器,左侧选择栏选择组件,搜索栏内搜索 web scraper,点击添加到Firefox即可,插件安装成功后,Firefox浏览器右上角便会显示web scraper图标,这表示安装成功了。

web scraper插件爬虫进阶(能满足非技术人员的爬虫需求,建议收藏!!!!)

#工欲善其事必先利其器(后面的都要认真学了哦)

首先使用插件需要打开浏览器的开发者后台(想深入了解的小伙伴可以打开https://www.cnblogs.com/mojita/p/5769350.html学习)

如何打开呢,首先定格在浏览器页面,然后按 F12 就可以实现(QQ 浏览器 F12 被禁掉了)。有的电脑需要fn+f12,Mac 电脑也可以用 option + command + I 打开,Win 电脑可以用 Ctrl + Shift + I 打开。

打开后会发现工具栏最右侧出现web scraper图标,点击后便进入web scraper插件,爬虫工作就从这里展开了!

web scraper插件爬虫进阶(能满足非技术人员的爬虫需求,建议收藏!!!!)

打开后发现有三个工作栏:

web scraper插件爬虫进阶(能满足非技术人员的爬虫需求,建议收藏!!!!)

先介绍以下URL:统一资源定位符,说白了就是一个网页地址,常用的https://www.baidu.com/ 这便是一个URL

sitemaps:网站地图

create new sitemap:创建新的网站地图

create new sitemap子工作栏:

create sitemap (创建网站地图),打开后会name和URL选项

import sitemap (导入网站地图),打开后会有个Sitemap JSON的选项,顾名思义,这个选项需要我们自主添加json来创建网站地图,(后面会学习到)

好了,先知道这么多即可,下面开始我们的web scraper爬虫进阶,冲啊