matlabhill代码-h1b_statistics:InsightDataScience的编码挑战

时间:2021-05-24 04:07:05
【文件属性】:
文件名称:matlabhill代码-h1b_statistics:InsightDataScience的编码挑战
文件大小:26KB
文件格式:ZIP
更新时间:2021-05-24 04:07:05
系统开源 Matlab Hill代码目录 问题 一家报纸编辑正在研究过去几年中有关H1B(H-1B,H-1B1,E-3)签证申请处理的移民数据趋势,试图确定获得批准的H1B签证数量最多的职业和州。 她从美国劳工部及其部门获得了统计数据。 但是,尽管有针对和的现成报告,但该网站过去几年都没有这些报告。 作为数据工程师,您需要创建一种机制来分析过去几年的数据,具体计算两个指标:经认证的签证申请的前十名职业和前十名国家。 您的代码应该是模块化的,并可以在将来重用。 如果报纸获取了2019年的数据(假设可以使用必要的数据来计算指标)并将其放在input目录中,则运行run.sh脚本应在output文件夹中生成结果,而无需进行更改编码。 输入数据集 原始数据可以在“披露数据”选项卡下找到(即,披露文件列中列出的文件,扩展名为“ .xlsx”)。 为方便起见,我们将Excel文件转换为以分号分隔(“;”)的格式,并将其放入此Google驱动器中。 但是,不要只对我们在Google云端硬盘上提供的文件上的代码进行测试 注意:每年的数据可以有不同的列。 在开发之前,请检查“文件结构”文档。 指示 我们设计了此编
【文件预览】:
h1b_statistics-master
----input()
--------sample_data.csv(5KB)
--------README.md(0B)
----insight_testsuite()
--------run_tests.sh(3KB)
--------tests()
----output()
--------top_10_states_H1B_FY_2016.txt(206B)
--------top_10_states.txt(161B)
--------top_10_occupations_H1B_FY_2014.txt(457B)
--------top_10_occupations.txt(243B)
--------README.md(0B)
--------top_10_states_H1B_FY_2014.txt(196B)
--------top_10_occupations_H1B_FY_2016.txt(465B)
----.DS_Store(8KB)
----src()
--------h1b_counting.py(6KB)
--------README.md(0B)
----.idea()
--------misc.xml(214B)
--------vcs.xml(180B)
--------modules.xml(294B)
--------h1b_statistics-master.iml(459B)
--------workspace.xml(16KB)
----run.sh(578B)
----.gitignore(66B)
----README.md(19KB)

网友评论