insight-data-eng-coding-challenge:Insight 数据工程编码挑战

时间:2024-08-07 06:02:10
【文件属性】:

文件名称:insight-data-eng-coding-challenge:Insight 数据工程编码挑战

文件大小:5KB

文件格式:ZIP

更新时间:2024-08-07 06:02:10

Python

洞察数据工程编码挑战 这个挑战是实现两个功能: 计算每个单词在推特上的总次数。 计算每条推文的唯一词的中位数,并在推文进来时更新这个中位数。 要执行程序,请将 run.sh 作为可执行文件执行。 程序的输出可以在 tweet_output 下找到 组织: 第一个程序利用 defaultdict 数据结构来跟踪词频,并假设字典适合内存 第二个程序计算运行中位数。 它假设所有推文的唯一字数都适合内存。 由于我们利用/维护最小堆和最大堆来跟踪任何给定点的中值,因此可以在 1 次数据传递中完成运行中值计算。 如果我们使用列表理解来计算中值,则中值计算可以缩短很多,但是它需要处理 O(number of tweet) 次的数据,这是浪费。


【文件预览】:
insight-data-eng-coding-challenge-master
----README.md(1017B)
----tweet_input()
--------tweets.txt(340B)
----run.sh(522B)
----tweet_output()
--------ft1.txt(375B)
--------ft2.txt(15B)
----src()
--------words_tweeted.py(2KB)
--------median_unique.py(3KB)

网友评论