文件名称:matlabhill代码-DI:的
文件大小:23KB
文件格式:ZIP
更新时间:2024-06-12 21:51:49
系统开源
Matlab Hill代码目录 问题 一家报纸编辑正在研究过去几年中有关H1B(H-1B,H-1B1,E-3)签证申请处理的移民数据趋势,试图确定获得批准的H1B签证数量最多的职业和州。 她从美国劳工部及其部门获得了统计数据。 但是,尽管有针对和的现成报告,但该网站过去几年都没有这些报告。 作为数据工程师,您需要创建一种机制来分析过去几年的数据,具体计算两个指标:经认证的签证申请的前十名职业和前十名国家。 您的代码应该是模块化的,并可以在将来重用。 如果报纸获取了2019年的数据(假设可以使用必要的数据来计算指标)并将其放在input目录中,则运行run.sh脚本应在output文件夹中生成结果,而无需进行更改编码。 输入数据集 原始数据可以在“披露数据”选项卡下找到(即,披露文件列中列出的文件,扩展名为“ .xlsx”)。 为方便起见,我们将Excel文件转换为以分号分隔(“;”)的格式,并将其放入此Google驱动器中。 但是,不要只对我们在Google云端硬盘上提供的文件上的代码进行测试 注意:每年的数据可以有不同的列。 在开发之前,请检查“文件结构”文档。 指示 我们设计了此编
【文件预览】:
DI-master
----.gitattributes(66B)
----output()
--------README.md(0B)
----insight_testsuite()
--------run_tests.sh(3KB)
--------tests()
----src()
--------Analytics.py(1KB)
--------Resources()
--------DataTransformer.py(469B)
--------runner.py(545B)
--------README.md(529B)
--------DataFrameH1B.py(3KB)
----run.sh(409B)
----input()
--------README.md(0B)
----.idea()
--------DI.iml(398B)
--------misc.xml(254B)
--------workspace.xml(21KB)
--------modules.xml(256B)
----README.md(19KB)