文件名称:Scraping-jobs-from-Indeed:该存储库用于从Indeed抓取作业
文件大小:14KB
文件格式:ZIP
更新时间:2024-06-05 13:29:34
data-science text-mining pandas-dataframe jobs web-scraper
从Indeed刮取工作 该代码的目的 我为旧金山大学管理学院的一个项目编写了此代码。 该代码的目的是能够获取一个数据集,该数据集捕获来自Indeed的不同职位,可以对其进行分析以了解职位市场需求,职位,技能,行业和位置。 代码结构 导入所需的软件包。 加载作为代码输入的CSV文件,这些文件包含作业搜索和您在每个作业中寻找的关键字。 第1阶段-搜寻工作链接:此代码将创建所有工作搜索的数据集,并提供每个工作的链接。 第2阶段-删除职位的正文:此代码将在创建的数据集中提取每个职位的正文。 第3阶段-文本挖掘职位的正文:此代码将查找所需的关键字以及每项工作所需的最少年限。 阶段4-为工作分类:此代码将工作分为以下几类:工作名称,业务职能/部门和城市。 如何处理搜索和关键字CSV文件 这些文件充当代码的输入,从而使您可以根据需要更轻松地进行编辑。 在运行python代码之前,您应根据需要
【文件预览】:
Scraping-jobs-from-Indeed-master
----searches.csv(47KB)
----keywords.csv(2KB)
----Scraping jobs from Indeed.ipynb(23KB)
----README.md(6KB)