crawllagou:拉勾网爬虫 lagou spider

时间:2024-05-23 12:54:11
【文件属性】:

文件名称:crawllagou:拉勾网爬虫 lagou spider

文件大小:1.09MB

文件格式:ZIP

更新时间:2024-05-23 12:54:11

HTML

该项目已不再维护 前提说明 1.拉勾网搜索页面一般都只展示30页、每页15个职位信息,一次搜索约450条 2.拉勾网反爬虫机制更新频繁,直接解析Ajax请求容易触发反爬虫机制(提示:”msg”:”您操作太频繁,请稍后再访问”),浏览器也无法访问。 3.解析这个Ajax请求前发起GET请求获取当前会话session, 可在某程度上解决第2点, 但在频繁请求后仍会触发反爬虫机制, 被Ban IP 开发设计 1.可构建大量代理IP池, 通过不断更换代理IP的方式, 解析Ajax请求进行爬取 2.亦可使用 selenium 浏览器自动化测试框架驱动谷歌浏览器, 模拟人使用浏览器查看网页的过程获取数据 3.此程序使用第2点解决方案, 使用 selenium 模拟人操作 4.搜索页和详情页请求过快便会跳出来登录页面, 连续请求10个详情页也会弹出登录页面, 因此此程序需要登录 5.在第一次登录后将保存


【文件预览】:
crawllagou-master
----report()
--------images()
--------js()
--------report.html(5KB)
--------single()
--------font()
--------template()
--------picture()
--------css()
----utils()
--------mysql_helpers.py(1KB)
--------base_helpers.py(19KB)
--------__init__.py(0B)
--------mongodb_helpers.py(4KB)
----requirements.txt(456B)
----visualize_data.py(28KB)
----README.md(4KB)
----spiders.py(23KB)
----configures()
--------cookies_file(6KB)
--------stop_words.txt(298B)
--------configure.yml(1KB)
----.gitignore(207B)

网友评论