文件名称:informed-traveler
文件大小:461KB
文件格式:ZIP
更新时间:2024-06-13 04:49:51
JavaScript
知情的旅行者 明智地选择航空公司,请告知! 介绍 是一个Web应用程序,可用于从RITA(研究与创新技术和管理)网站获得的航空公司航班准时性能数据的快速且用户友好的查询。 数据每季度更新一次,可追溯到1987年10月。历史数据总计65GB。 可以从下载此项目的演示文稿。 为了自动下载数据,我使用了 。 然后,在将数据放入HDFS之前,我使用了shell脚本(可以在下)进行一些预处理。 这是我用于项目的数据管道: 如您所见,我使用Pig进行批处理。 我使用Pig Latin清理了数据并进行了必要的汇总,以显示每个类别的延迟率。 数据不干净,并且缺少字段。 结果,并非所有延迟都被分类,因此我添加了一个结合所有此类延迟的未分类类别。 作为NoSQL数据库,我使用了HBase,并且使用了HBaseStorage将数据插入到HBase中。 我使用Flask API和Python来实现用户
【文件预览】:
informed-traveler-master
----Pig-MapReduce()
--------quarterly-delays-fcount.pig(4KB)
--------generate-all-hbase-tables.pig(24KB)
--------generate-tab-data.pig(15KB)
--------generate-Flnum.pig(9KB)
--------quarterly-delays.pig(6KB)
----images()
--------query-result.png(88KB)
--------data-pipeline.jpg(69KB)
----shell_scripts()
--------delete_first_line.sh(230B)
--------ncdc_download.sh(317B)
--------unzip.sh(280B)
--------rita_data_download.sh(616B)
----README.md(2KB)
----API()
--------runapi.py(28KB)
--------templates()
--------static()