文件名称:insight_coding_challenge:InsightDataScience 数据工程编码挑战
文件大小:27KB
文件格式:ZIP
更新时间:2024-08-08 04:42:58
Python
洞察数据工程 - 编码挑战 [解决方案] 描述 这是的 Python3 解决方案。 要在 Linux/UNIX 系统上运行该解决方案,只需在*目录中执行run.sh script 。 文件夹tests/包含一系列单元测试、可伸缩性测试和端到端测试,所有这些都可以通过执行runtests.sh从tests/运行。 解决方案说明 词频分布 挑战的第一部分要求我们维护推文的词频分布。 每次收到一条新推文时,我们都应该更新频率分布。 我们应该能够实时报告给定单词的当前频率。 使用键值字典,实现时间复杂度为O[1]解决方案很简单。 当一条新推文到达时,我们获取每个单词并检查它是否存在于字典中。 如果没有找到这个词,我们将这个词作为一个新的键添加到字典中,并将该键的值设置为 1。如果该词已经是字典中的一个键,我们只需将该词的键值加 1 . 由于字典提供分摊的常量时间查找和插入,因此该解决方案的
【文件预览】:
insight_coding_challenge-master
----tweets_input()
--------tweets.txt(340B)
----.gitignore(6B)
----src()
--------__init__.py(0B)
--------median_unique.py(3KB)
--------words_tweeted.py(2KB)
----tweets_output()
--------ft1.txt(1KB)
--------ft2.txt(11B)
----README.md(5KB)
----run.sh(163B)
----tests()
--------data()
--------generate_testing_data.py(2KB)
--------__init__.py(0B)
--------unit_tests.py(1KB)
--------scalability_tests.py(1KB)
--------runtests.sh(820B)