文件名称:job_scraping:用于抓取true.com和一些基本统计信息的Python脚本
文件大小:1.15MB
文件格式:ZIP
更新时间:2024-06-03 11:48:16
JupyterNotebook
如何使用此工具: 构建此工具的目的是从确实确实从.com抓取职位发布数据。 代码的第一块具有所需库的导入,还要求一个职业以及一个位置。 如果输入位置,则需要在第二个块中更改代码的注释掉的部分。 输入职业后,该代码将刮除确实发布的前500个工作(位置,公司,职务和链接)。 然后,代码获取每个作业位置的纬度和经度。 这部分代码非常慢,可以优化为明显更快。 获取每个作业的位置后,我们将其绘制在基本底图上,并使用高斯核对点数据集进行平滑处理。 在可视化了作业的热图之后,代码随后绘制了作业位置,职称和公司的一些词云。 然后,我们按状态和基本计数图可视化数据,以便我们可以查看哪些州的特定职业的工作最多。 查看所有基本统计信息之后,该代码将打开所有作业链接,然后继续从公司网站上抓取文字。 我们追求的是每篇文章中提到的多年经验。 该代码从文本字符串(认为是7和7)中同时刮除整数和单词,然后将它们编译为
【文件预览】:
job_scraping-master
----LICENSE(1KB)
----years experience 2.ipynb(1.55MB)
----README.md(2KB)