学习python爬虫有一段时间了,今天先拿猎聘网的上海公司数据练练手,并做一点数据分析,分享给大家。
一、数据获取
1、爬虫思路
①首先找到上海公司列表页面 /company/020-000/。
②由于该页面最多显示100页,所以要分行业爬取,分行业没有超过100页的了。
③获取各行业页面的网址。
④对每一个行业页面进行翻页,这样就已经得到上海公司的所有页面。
⑤再从这些页面中获取所有公司详情页的网址。
⑥对详情页进行解析获取到各公司的详细数据。
2、scrapy爬虫
4个函数分别对应后四个步骤,这里用到User-Agent随机切换,没用代理,共11548条数据用时35分钟左右
Spider模块代码如下(其他模块基本没用):
# -*- coding: utf-8 -*-
import scrapy
import requests
from bs4 import BeautifulSoup
from lxml import etree
import re
import random
import time
from import LiepinwangItem
import json
hds=[{'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'},\
{'User-Agent':'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.12 Safari/535.11'},\
{'User-Agent':'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Trident/6.0)'},\
{'User-Agent':'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:34.0) Gecko/20100101 Firefox/34.0'},\
{'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/44.0.2403.89 Chrome/44.0.2403.89 Safari/537.36'},\
{'User-Agent':'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50'},\
{'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50'},\
{'User-Agent':'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0'},\
{'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1'},\
{'User-Agent':'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1'},\
{'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11'},\
{'User-Agent':'Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11'},\
{'User-Agent':'Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11'}]
class LiepinSpider():
name = "liepin"
def start_requests(self):
href_list = []
url = '/company/020-000/'
req = (url).text
soup = BeautifulSoup(req,'lxml')
hrefs_1 = ('#region > > -bar > -box > div > a')
for href_1 in hrefs_1:
href_list.append(href_1['href'])
href_list.pop()
hrefs_2 = ('#region > > -bar > -box > div > div > a')
for href_2 in hrefs_2:
href_list.append(href_2['href'])
href_list.pop()
for industry_href in href_list[1:]:
yield scrapy.Request(url = industry_href,callback=self.next_page)
def next_page(self,response):
base_url =
req = (base_url,headers=hds[(0,len(hds)-1)]).text
pages = ('(.*?)',req,)[0].replace('共','').replace('页','')
if pages:
for i in range(0,int(pages)):
urls = str(base_url) + 'pn' + str(i)
yield (url = urls ,callback=self.get_company_url)
else:
yield (url = base_url ,callback=self.get_company_url)
def get_company_url(self,response):
url =
req = (url,headers=hds[(0,len(hds)-1)]).text
soup = BeautifulSoup(req,'lxml')
company_urls = ('#region > > > div > > div > -name > a')
for company_url in company_urls:
detail_url = company_url['href']
yield (url = detail_url ,callback=self.parse_detail)
def parse_detail(self,response):
url =
try:
item = LiepinwangItem()
req = (url,headers=hds[(0,len(hds)-1)]).text
selector = (req)
item['companyname'] = ('//*[@]/div[2]/section/div/h1/text()')[0] if ('//*[@]/div[2]/section/div/h1/text()') else None
position = ('//*[@]/div[2]/div/div/div[2]/h2/small/text()')[0] if ('//*[@]/div[2]/div/div/div[2]/h2/small/text()') else None
item['position_total'] = ("\D", "", position)
item['welfares'] = ('//*[@]/div[2]/section/div/div/ul/li/text()') if ('//*[@]/div[2]/section/div/div/ul/li/text()') else None
item['industry'] = ('//*[@]/div[2]/div/aside/div[2]/ul[1]/li[1]/a/text()')[0] if ('//*[@]/div[2]/div/aside/div[2]/ul[1]/li[1]/a/text()') else None
item['companysize'] = ('//*[@]/div[2]/div/aside/div[2]/ul[1]/li[2]/text()')[0] if ('//*[@]/div[2]/div/aside/div[2]/ul[1]/li[2]/text()') else None
item['address'] = ('//*[@]/div[2]/div/aside/div[2]/ul[1]/li[3]/text()')[0] if ('//*[@]/div[2]/div/aside/div[2]/ul[1]/li[3]/text()') else None
item['poi'] = ('//*[@]/div[2]/div/aside/div[2]/ul[1]/li[3]/@data-point')[0] if ('//*[@]/div[2]/div/aside/div[2]/ul[1]/li[3]/@data-point') else None
item['time'] = ('//*[@]/div[2]/div/aside/div[2]/ul[2]/li[2]/text()')[0] if ('//*[@]/div[2]/div/aside/div[2]/ul[2]/li[2]/text()') else None
item['capital'] = ('//*[@]/div[2]/div/aside/div[2]/ul[2]/li[3]/text()')[0] if ('//*[@]/div[2]/div/aside/div[2]/ul[2]/li[3]/text()') else None
item['field'] = ('//*[@]/div[2]/div/aside/div[2]/ul[1]/li[1]/text()')[0].strip() if ('//*[@]/div[2]/div/aside/div[2]/ul[1]/li[1]/text()') else None
yield item
except Exception:
pass
由于数据量不大,爬取到的数据保存成csv格式就可以了,然后再把csv转换为Excel格式,方便做数据清洗和分析。
二、数据清洗
1、编号,方便做数据统计。
2、对异常数据进行清洗,数据格式统一。
3、坐标转换,猎聘网使用的是火星坐标系,所以要转换为WGS84地球坐标系,方便做分析,这里用到的是别人写好的代码,地址/wandergis/coordTransform_py。
4、通过QGIS软件匹配出个公司所在的行政区和街镇(区域)。
5、在猎聘网找到行业分类的数据,对每个行业归为13大类。
清洗之后,大概长这样:
三、数据分析及可视化
1、各行业公司数量及占比
仅在猎聘网上,公司最多的行业为互联网/游戏/软件,占比25.5%,达到了上海公司的1/4以上,上海的互联网公司数量虽然跟北京没法比,但依然是占比最高的。
紧随其后的就是金融行业,上海作为中国的金融中心,金融行业肯定不会少。
第三位是房地产/建筑/物业,上海的房价在全国都是数一数二的,房地产建筑行业也不会少。
2、各规模的公司数量
100-499人的中小型企业最多,达到了3673家,其次是1-49人和50-99人的小型企业。
3、公司福利
提到福利,我脑海中就浮现出了苍老师的形象,这里用的是PPT大神阿文推荐的wordart,/create
福利排名前几位的是:五险一金、带薪年假、绩效奖金、岗位晋升,很显然,都是跟钱和假期有关的。
由于每个公司福利数据较多,要先将福利数据在Python进行处理,并统计一下,这个比较简单,代码就不放了。
4、各街镇公司数量
各区域中,公司数量最多的是陆家嘴537家,上海金融圈中心,其次是张江481家,上海程序猿最多的地方,第三位是虹梅路409家,为了探寻一下这些公司多的区域的行业占比,再进一步把各区域和行业进行交叉分析。
结果显示,陆家嘴近6成的公司都是金融公司,而互联网/游戏/软件公司占比较低。
张江的互联网/游戏/软件公司占比为47%,第三名的虹梅路互联网/游戏/软件公司占比同样是47%,其他行业构成也和张江近似。
通过上图我们还发现,潍坊新村和花木的金融公司占比也很高,达到了40%以上,通过观察地图发现,这两个区域离陆家嘴较近,所以可能是受陆家嘴影响,金融公司也很多。
5、各街镇的密度
有些区域虽然公司多,但是面积也很大,并不能说明该区域的公司很密集,所以这里引入一个是新的指标:单位面积的密度,来看看到底哪里的公司最密集。
单位面积的密度=各街镇中公司数量/各街镇的面积
密度前三位的是南京西路,淮海西路和南京东路,这几个区域虽然很小,但是写字楼比较多,大多数都是中小型企业,一个写字楼可能有几十家或者上百家公司,例如:南京西路区域虽然只有1.6平方公里,但是有195家公司,所以密度很大。
感谢您有耐心看到这里,如果您觉得有趣或者有用,请点个赞,有任何疑问可以在下方留言。