文件名称:coding-challenge:洞察数据工程的挑战
文件大小:4.42MB
文件格式:ZIP
更新时间:2024-05-19 02:15:29
Shell
Insight数据工程-编码挑战 对于此编码挑战,您将开发可帮助分析Twitter用户社区的工具。 为简单起见,我们将构建的功能是原始的,但是您可以轻松地在这些功能之上构建更复杂的功能。 挑战总结 这项挑战是要实现两个功能: 清理并提取来自Twitter Streaming API的原始JSON tweets中的文本,并跟踪包含unicode的tweet的数量。 计算最近60秒内Twitter主题标签图中顶点的平均程度,并在每次出现新推文时进行更新。 在这里,我们必须定义一些概念(尽管下面将举例说明): 一旦所有转义符(例如\ n,“,/)和unicode被删除,推文的文本就被认为是“干净的”。 Twitter主题标签图是在单个推文中将所有已提及的主题标签连接在一起的图。 实施细节 我们希望您实现这两个功能的自己的版本。 但是,我们不希望这个挑战集中在连接到Twitter API
【文件预览】:
coding-challenge-master
----src()
--------tweets_cleaned.py(65B)
--------average_degree.py(67B)
----images()
--------htag_graph_3.png(34KB)
--------htag_degree_3.png(28KB)
--------directory-pic.png(29KB)
--------htag_degree_4.png(31KB)
--------htag_degree_2.png(22KB)
--------htag_graph_4.png(39KB)
--------htag_degree_1.png(8KB)
--------htag_degree_5.png(17KB)
--------htag_graph_1.png(11KB)
--------htag_graph_2.png(27KB)
--------htag_graph_5.png(22KB)
----tweet_input()
--------tweets.txt(0B)
----run.sh(352B)
----tweet_output()
--------ft2.txt(48B)
--------ft1.txt(47B)
----README.md(32KB)
----.gitignore(70B)
----data-gen()
--------.twitter-example(108B)
--------tweets.txt(26.95MB)
--------README.md(2KB)