文件名称:capstone:浸入式数据科学的Capstone项目
文件大小:1.48MB
文件格式:ZIP
更新时间:2024-05-27 09:10:45
Python
顶峰项目 背景故事 2015年3月24日,从巴塞罗那飞往杜塞尔多夫的在法国阿尔卑斯山坠毁,机上全部150人丧生。 在几天的过程中,出现了证据表明坠毁是由副驾驶故意造成的。 从一开始对这个故事的兴趣就很高,但是故事的进展(伴随着副驾驶员自杀的逐渐暴露)在几天之内引起了全世界的兴趣。 故事中的突发新闻导致这段时间的互联网流量激增。 不能从单个网站上获取对全球利益的审查。 相反,来自bit.ly的网址缩短服务的数据可以用作全局活动的代理。 为了检查全球对这次空难的兴趣,bit.ly提供了三天的数据(包括2015-03-25至2015-03-27),其中每72小时有10分钟的流量。 数据科学问题 数据可视化 主题建模 数据 Bit.ly有两种主要的数据类型: 编码:当bit.ly用户创建一个缩短的url时,该操作将记录为一个编码 解码:当用户在浏览器中打开bit.ly缩短的URL时,缩短的
【文件预览】:
capstone-master
----graphs.txt(295B)
----presentation-text.txt(2KB)
----pylint.rc(8KB)
----script()
--------05-get-webpages-german.py(3KB)
--------remap-timezone.py(889B)
--------02-summarize-csv.py(1KB)
--------utils()
--------05-fix-germanwings.py(953B)
--------remove-html-comment.py(1KB)
--------02-extract-tz.sh(370B)
--------03-coalesce-json.py(421B)
--------04-create-database.py(554B)
--------convert-objs-to-json.py(381B)
--------02-extract-urls.sh(368B)
--------repull-germanwings.py(2KB)
--------__init__.py(0B)
--------tasks()
--------create-german-wings-pickle.ipynb(9KB)
--------rakefile(199B)
--------07-extract-urls.py(4KB)
--------extract-urls.py(731B)
--------09-clean-pilots.py(1KB)
--------02-map-urls.py(706B)
--------04-get-webpages.py(4KB)
--------07-extract_urls.sh(353B)
--------extract-US-CA-urls.sh(498B)
--------summarize-urls.py(1KB)
--------02-map-urls.sh(425B)
--------01_filter_sanitize.py(2KB)
--------08-insert-urlhist.py(678B)
--------07-pickle-short-urls.py(804B)
--------extract-US-DE-ES-IT-urls.sh(660B)
----aws()
--------aws-mongo-config.sh(2KB)
--------build-phantomjs.sh(1KB)
--------copy-to-aws.sh(199B)
--------setup-aws.sh(695B)
----website()
--------favicon.ico(1KB)
--------__init__.py(26B)
--------server.py(1KB)
--------crossdomain.py(2KB)
--------templates()
--------static()
----topic-modeling()
--------topic-modeling.py(15KB)
----requirements.txt(71B)
----progress.txt(8KB)
----schema.txt(501B)
----capstone.md(4KB)
----.travis.yml(307B)
----README.md(4KB)
----project-summary.md(286B)
----s3()
--------aws-capstone-backup.sh(501B)
--------aws-capstone-retrieve.sh(577B)
--------copy-s3-to-s3.sh(133B)
----makefile(202B)
----.tmux.conf(5KB)
----.gitignore(147B)
----rest()
--------client()
--------server()
----mongo()
--------urlhist-minute-country.js(989B)
--------urlhist-timestamp.json(37KB)
--------urlhist-summarize.py(938B)
--------urlhist-timestamp-country.json(6.58MB)