招聘网站分析-前程无忧网站的爬虫设计与实现

时间:2024-10-06 07:52:44

爬取文件

原理:

1.需求分析
前程无忧招聘网没有设计反爬虫策略,只需要利用开发者工具分析出页面的数据来源和分页规律即可。前程无忧招聘网职位搜索列表页和详情页如图所示。
在这里插入图片描述

在这里插入图片描述

2.爬虫数据存储设计
对于爬虫来说,最重要的是爬取下来的数据,所以爬虫项目在开发前需要考虑数据的保存格式以及保存的数据项。前期预估网站爬取的数据在 10 万以内,数据量较小,所以考虑采用 CSV 等文本格式或 MySQL 数据库进行存储。
如果采用 CSV 文本格式进行存储,在数据清洗前还要考虑数据合并。
结合需求分析中的数据分析目标,分析前程无忧、猎聘网、智联招聘三个招聘网站的岗位的数据,确定数据采集项。利用数据库中的表结构设计形式进行展示每个数据项的含义及作用。
最后进行数据库设计,在mysql数据库实现表的创建。
内容:
1.分析招聘网站每条招聘信息的内容,确定爬虫数据项,以数据库表结构形式进行展示。
2.确定数据存储格式,在scrapy项目中编写数据存储的相关代码。

1.页面分析

在搜索列表页中,鼠标右键选择“查看网页源代码”,观察 html 页面结构,在 html 页面中发现检索的职位数据混编在 JavaScript 脚本中,数据格式为 json。可以通过代码提取“window.SEARCH_RESULT =”后的 json,进行解析即可。
在这里插入图片描述
接下来分析分页规律,通过点击分页的数字按钮,可以确定url地址中“.html?”前的数字为页码。由于请求的url地址过长,尝试去掉多余的参数,通过测试发现url地址中问号后的请求参数,都可省略。最简url地址的格式为“https://search./list/000000,000000,0000,00,9,99,检索关键字,2,页码.html”。
在这里插入图片描述
2.爬虫编写
在正式编写爬虫前,需要思考几个问题,形成基本的爬虫编写思路。问题如下:
如何处理多个检索关键字,如“大数据开发”、“算法”、“爬虫”等
在这里插入图片描述

如何处理分页,多页数据的爬取
在这里插入图片描述

如何保存 keywords 检索关键字
在这里插入图片描述

数据库展示

在这里插入图片描述