目标:用Python抓取实习僧网站上数据分析相关岗位信息,并用Python做可视化分析
软件:Python 3.0 版本
一、 实习僧网站爬虫介绍
实习僧网址:http://www.shixiseng.com/
在搜索框输入 数据 然后跳转到一下页面,Fn + f12 就能看到网页调试工具。
刷新页面,然后点进第一个链接
url 就是我们爬虫要用到的url, 其中k和p的含义已经解释了。点击尾页,可以知道共109页数据。
然后利用request Headers信息用来模拟浏览器登录。
网页上右键后查看源代码。我们要爬取职位名称,职位详情网址,月薪,工作地点等信息。写得正则表达为:
好了。基本工作完成,这就需要进一步构建代码了。
如何翻页,爬取下一页呢,就是利用循环对参数P的调整,实现整个页面的抓取。
然后就是对爬取字段的组合,并且写入excel文件。
需要用到: import xlwt #读写Excel 文件
最终运行代码,得到结果,共1085条记录,用时30秒多。
二、PTYHON数据分析
首先导入需要用到的包,然后读取Excel文件
得到:
网址数据暂时用不上 因此就删除这两列
主要从薪酬,工作天数,工作地点和时间要求四个方面分析。
先看一个简单的:
1 工作天数的要求和分布
2 实习时间的要求
3 实习地点的分布
What the hell?
过滤掉频数小于5的
4 实习薪酬的水平
额 同样的问题,,,
168个类别,所以挤成那个样子了。。。过滤掉频数小于10的。
总结一下:
实习地点:数据分析岗位实习北京和上海集中较多,然后是广州和深圳。其次是二线城市,成都,南京,杭州等。
工作天数:要求5天/周的实习最多,占比达到44.61%,其次是4/周和3/周。
实习时间:要求至少3个月的实习最多,其次是6个月,4个月。
实习薪酬:集中在100-120元区间上的最多。超过一半的实习工资超过了100。
--------------------------------------------------
第一次写,欢迎指正。