文件名称:data-engineering
文件大小:8KB
文件格式:ZIP
更新时间:2024-06-17 16:39:26
Python
该存储库解决了数据工程中以下两个问题。 源代码使用Python。 您需要Python 2.7及更高版本才能运行该程序。 运行run.sh以在wc_output目录中查看输出。 在数据工程中遇到的第一个问题是字数统计,它从目录中获取一个文本文件或一组文本文件,并输出每个字的出现次数。 例如,包含以下段落的文件的字数统计: So call a big meeting, Get everyone out out, Make every Who holler, Make every Who shout shout. 会返回: 1个大1个电话,每2个每个人1个,送1个holler 1个,让2个会议,1个,2个,喊2个,所以,1个,谁2个, 解决方案的第一部分(word_count_insight.py)是实现Word Count,它对名为wc_input的目录中包含的文本文件中的所有单
【文件预览】:
data-engineering-master
----wc_output()
--------med_result.txt(41B)
--------wc_result.txt(1KB)
----src()
--------word_count_insight.py(4KB)
--------running_median.py(6KB)
----run.sh(76B)
----README.md(3KB)
----wc_input()
--------input1.txt(99B)
--------input3.txt(994B)
--------input2.txt(498B)