实习僧网站招聘信息爬取以及可视化操作

时间：2022-09-18 16:10:55

目标：用Python抓取实习僧网站上数据分析相关岗位信息，并用Python做可视化分析

软件：Python 3.0 版本

一、实习僧网站爬虫介绍

实习僧网址：http://www.shixiseng.com/

在搜索框输入数据然后跳转到一下页面，Fn + f12 就能看到网页调试工具。

刷新页面，然后点进第一个链接

实习僧网站招聘信息爬取以及可视化操作

url 就是我们爬虫要用到的url, 其中k和p的含义已经解释了。点击尾页，可以知道共109页数据。

实习僧网站招聘信息爬取以及可视化操作

然后利用request Headers信息用来模拟浏览器登录。

实习僧网站招聘信息爬取以及可视化操作

网页上右键后查看源代码。我们要爬取职位名称，职位详情网址，月薪，工作地点等信息。写得正则表达为：

实习僧网站招聘信息爬取以及可视化操作

好了。基本工作完成，这就需要进一步构建代码了。

如何翻页，爬取下一页呢，就是利用循环对参数P的调整，实现整个页面的抓取。

实习僧网站招聘信息爬取以及可视化操作

然后就是对爬取字段的组合，并且写入excel文件。

需要用到： import xlwt #读写Excel 文件

实习僧网站招聘信息爬取以及可视化操作

最终运行代码，得到结果，共1085条记录，用时30秒多。

实习僧网站招聘信息爬取以及可视化操作

实习僧网站招聘信息爬取以及可视化操作

二、PTYHON数据分析

首先导入需要用到的包，然后读取Excel文件

实习僧网站招聘信息爬取以及可视化操作

得到：

实习僧网站招聘信息爬取以及可视化操作

网址数据暂时用不上因此就删除这两列

实习僧网站招聘信息爬取以及可视化操作

主要从薪酬，工作天数，工作地点和时间要求四个方面分析。

实习僧网站招聘信息爬取以及可视化操作

先看一个简单的：

1 工作天数的要求和分布

实习僧网站招聘信息爬取以及可视化操作

实习僧网站招聘信息爬取以及可视化操作

2 实习时间的要求

实习僧网站招聘信息爬取以及可视化操作

3 实习地点的分布

实习僧网站招聘信息爬取以及可视化操作

What the hell?

实习僧网站招聘信息爬取以及可视化操作

过滤掉频数小于5的

实习僧网站招聘信息爬取以及可视化操作

4 实习薪酬的水平

实习僧网站招聘信息爬取以及可视化操作

额同样的问题，，，

实习僧网站招聘信息爬取以及可视化操作

168个类别，所以挤成那个样子了。。。过滤掉频数小于10的。

实习僧网站招聘信息爬取以及可视化操作

实习僧网站招聘信息爬取以及可视化操作

总结一下：

实习地点：数据分析岗位实习北京和上海集中较多，然后是广州和深圳。其次是二线城市，成都，南京，杭州等。

工作天数：要求5天/周的实习最多，占比达到44.61%，其次是4/周和3/周。

实习时间：要求至少3个月的实习最多，其次是6个月，4个月。

实习薪酬：集中在100-120元区间上的最多。超过一半的实习工资超过了100。

--------------------------------------------------

第一次写，欢迎指正。

标签：pandas 招聘数据 python 操作可视化信息网站实习

相关文章

