文件名称:JobHunter:使用Selenium抓取职业网站的网站
文件大小:23KB
文件格式:ZIP
更新时间:2024-03-08 15:38:32
JupyterNotebook
求职者 这里的挑战是从几个石油公司的职业网站上刮取工作清单结果,然后将结果合并到一个可搜索的DataFrame中。 从动态网页中收集数据似乎并非易事,并且代码难以维护。 但这是一个很好的学习经验。 Web抓取的新手,我很快就意识到这些网站很难抓取,因为将搜索结果分页(分布在多个页面上),例如一次25个结果。 该脚本必须导航到并遍历每组结果,并将每个结果追加到DataFrame。 另外,由于内容是动态的并且易于更改,因此脚本不可靠,很容易损坏。 当然,每个站点都是唯一的,每个职位列表的格式可能不一致。 该脚本使用Selenium模块对两个站点Hallibuton和BP职业站点执行网络抓取,因为我发现这些站点更容易抓取。 它仅检索作业的标题信息(角色,位置等),而不检索每个列表后面的详细内容。
【文件预览】:
JobHunter-master
----results.csv(25B)
----README.md(1KB)
----.gitignore(2KB)
----Web scraping career sites with Selenium.ipynb(165KB)