文件名称:SueldosGovScrape:智利*泄露公共数据
文件大小:7.94MB
文件格式:ZIP
更新时间:2024-05-30 23:46:18
JupyterNotebook
缩小智利*数据与智利人之间的差距 数据在那里,但分散在多个HTML页面中。 不可能分析。 真正的价值是什么? 在这里,我们探索将所有HTML页面转换为实际数据表,并了解其可能产生的指数影响。 第一阶段: 来自Web抓取薪资数据 清理,标准化,将数据转换为可用表 探索并发布相关见解 第二阶段: 基于抓取整个透明度站点并频繁刷新来创建数据管道 创建一个允许共享干净的列表数据供公众使用的Web服务 可用数据 原始和清除的数据已经在我们的可用 文件名 描述 scraped_data_20180210-3.csv.zip 原始数据于2018年2月2日删除 presidencia-monthly-transformed_20180210-3-1.csv 清理数据 数据转换 数据杂乱无章,需要按摩。 转换的详细信息在
【文件预览】:
SueldosGovScrape-master
----.gitignore(682B)
----.ipynb_checkpoints()
--------Untitled-checkpoint.ipynb(72B)
--------Untitled1-checkpoint.ipynb(72B)
--------data_wrangling-checkpoint.ipynb(178KB)
--------Week 6 - Selenium-checkpoint.ipynb(56KB)
--------sueldosScrape_20160710-checkpoint.ipynb(188KB)
--------020_data_wrangling-checkpoint.ipynb(176KB)
--------Wrangling_2-checkpoint.ipynb(8KB)
--------010_sueldosScrape-checkpoint.ipynb(2.1MB)
--------sueldosScrape-checkpoint.ipynb(2.85MB)
----data()
--------webpages_other.csv(491B)
--------webpages_test.csv(83B)
--------webpages.csv(2KB)
----sueldosgovscrape.sublime-workspace(4KB)
----code()
--------.ipynb_checkpoints()
--------022_data_clean_second.ipynb(1.62MB)
--------021_data_clean_first.ipynb(202KB)
--------040_salary-output-ministry.ipynb(5.26MB)
--------Wrangling_2.ipynb(8KB)
--------name-fuzzy-match-log.csv(226KB)
--------024_timeline_estimation-scaleup.ipynb(25KB)
--------open_jupyter.bat(16B)
--------geckodriver.log(3.12MB)
--------Untitled.ipynb(4KB)
--------010_sueldosScrape-2.ipynb(416KB)
--------020_data_wrangling.ipynb(183KB)
--------025_Salary-over-time-troubleshooting.ipynb(1001KB)
--------024_timeline_estimation-scaleup-profileTime.ipynb(185KB)
--------ghostdriver.log(2KB)
--------name-fuzzy-match-log-checkJG.csv(329KB)
--------data_wrangling.ipynb(348KB)
--------lib()
--------030_exploration.ipynb(727KB)
--------023_data_clean_third.ipynb(1.9MB)
--------010_sueldosScrape.ipynb(289KB)
--------main.py(3KB)
--------030_timeline_estimation.ipynb(16KB)
--------010_sueldosScrape-3.ipynb(116KB)
----sueldosgovscrape.sublime-project(45B)
----020_data_wrangling.ipynb(176KB)
----README.md(1KB)
----.idea()
--------misc.xml(699B)
--------workspace.xml(12KB)
--------vcs.xml(180B)
--------modules.xml(284B)
--------SueldosGovScrape.iml(459B)
----old()
--------sueldosScrape_old.ipynb(29KB)
--------Week 5 - beautiful_soup.ipynb(12KB)
--------Week 6 - Selenium.ipynb(49KB)
--------sueldosScrape_20160710.ipynb(13KB)
----.gitattributes(378B)