实习僧网站招聘信息爬取以及可视化操作

时间:2022-09-18 16:10:55

目标:用Python抓取实习僧网站上数据分析相关岗位信息,并用Python做可视化分析

软件:Python 3.0 版本

 一、 实习僧网站爬虫介绍 

实习僧网址:http://www.shixiseng.com/

实习僧网站招聘信息爬取以及可视化操作

 

在搜索框输入 数据 然后跳转到一下页面,Fn + f12 就能看到网页调试工具。

刷新页面,然后点进第一个链接

实习僧网站招聘信息爬取以及可视化操作

url 就是我们爬虫要用到的url, 其中k和p的含义已经解释了。点击尾页,可以知道共109页数据。

 实习僧网站招聘信息爬取以及可视化操作

 

然后利用request Headers信息用来模拟浏览器登录。

实习僧网站招聘信息爬取以及可视化操作

网页上右键后查看源代码。我们要爬取职位名称,职位详情网址,月薪,工作地点等信息。写得正则表达为:

实习僧网站招聘信息爬取以及可视化操作

 

好了。基本工作完成,这就需要进一步构建代码了。

 

如何翻页,爬取下一页呢,就是利用循环对参数P的调整,实现整个页面的抓取。

 实习僧网站招聘信息爬取以及可视化操作

然后就是对爬取字段的组合,并且写入excel文件。

需要用到: import xlwt #读写Excel 文件

 实习僧网站招聘信息爬取以及可视化操作

最终运行代码,得到结果,共1085条记录,用时30秒多。

 实习僧网站招聘信息爬取以及可视化操作

实习僧网站招聘信息爬取以及可视化操作

 

二、PTYHON数据分析

 

首先导入需要用到的包,然后读取Excel文件

 实习僧网站招聘信息爬取以及可视化操作

得到:

 实习僧网站招聘信息爬取以及可视化操作

网址数据暂时用不上 因此就删除这两列

 实习僧网站招聘信息爬取以及可视化操作

 

 

主要从薪酬,工作天数,工作地点和时间要求四个方面分析。

 实习僧网站招聘信息爬取以及可视化操作

 

先看一个简单的:

1 工作天数的要求和分布

 实习僧网站招聘信息爬取以及可视化操作

实习僧网站招聘信息爬取以及可视化操作

2 实习时间的要求

 实习僧网站招聘信息爬取以及可视化操作

 

 

3 实习地点的分布

 实习僧网站招聘信息爬取以及可视化操作

 

What the hell?

 实习僧网站招聘信息爬取以及可视化操作

过滤掉频数小于5的

 实习僧网站招聘信息爬取以及可视化操作

 

4 实习薪酬的水平

 实习僧网站招聘信息爬取以及可视化操作

 

额 同样的问题,,,

 实习僧网站招聘信息爬取以及可视化操作

 

168个类别,所以挤成那个样子了。。。过滤掉频数小于10的。

 实习僧网站招聘信息爬取以及可视化操作

实习僧网站招聘信息爬取以及可视化操作

 

总结一下:

实习地点:数据分析岗位实习北京和上海集中较多,然后是广州和深圳。其次是二线城市,成都,南京,杭州等。

工作天数:要求5天/周的实习最多,占比达到44.61%,其次是4/周和3/周。

实习时间:要求至少3个月的实习最多,其次是6个月,4个月。

实习薪酬:集中在100-120元区间上的最多。超过一半的实习工资超过了100。

--------------------------------------------------

第一次写,欢迎指正。