crawllagou:拉勾网爬虫 lagou spider下载

【文件属性】：

文件名称：crawllagou:拉勾网爬虫 lagou spider

文件大小：1.09MB

文件格式：ZIP

更新时间：2024-05-23 12:54:11

HTML

该项目已不再维护前提说明 1.拉勾网搜索页面一般都只展示30页、每页15个职位信息，一次搜索约450条 2.拉勾网反爬虫机制更新频繁，直接解析Ajax请求容易触发反爬虫机制（提示：”msg”:”您操作太频繁,请稍后再访问”），浏览器也无法访问。 3.解析这个Ajax请求前发起GET请求获取当前会话session, 可在某程度上解决第2点, 但在频繁请求后仍会触发反爬虫机制, 被Ban IP 开发设计 1.可构建大量代理IP池, 通过不断更换代理IP的方式, 解析Ajax请求进行爬取 2.亦可使用 selenium 浏览器自动化测试框架驱动谷歌浏览器, 模拟人使用浏览器查看网页的过程获取数据 3.此程序使用第2点解决方案, 使用 selenium 模拟人操作 4.搜索页和详情页请求过快便会跳出来登录页面, 连续请求10个详情页也会弹出登录页面, 因此此程序需要登录 5.在第一次登录后将保存

立即下载

【文件预览】：
crawllagou-master
----report()
--------images()
--------js()
--------report.html(5KB)
--------single()
--------font()
--------template()
--------picture()
--------css()
----utils()
--------mysql_helpers.py(1KB)
--------base_helpers.py(19KB)
--------__init__.py(0B)
--------mongodb_helpers.py(4KB)
----requirements.txt(456B)
----visualize_data.py(28KB)
----README.md(4KB)
----spiders.py(23KB)
----configures()
--------cookies_file(6KB)
--------stop_words.txt(298B)
--------configure.yml(1KB)
----.gitignore(207B)

秒客网

crawllagou:拉勾网爬虫 lagou spider

网友评论

相关文章