【文件属性】:
文件名称:预测航班延误:使用Apache Hadoop和Python预测奥黑尔国际机场的航班延误
文件大小:6KB
文件格式:ZIP
更新时间:2021-02-04 01:45:38
python hadoop random-forest scikit-learn regression
预测航空公司延误
使用Hadoop通过2007年和2008年的数据预测奥黑尔机场的航班延误。使用Pig脚本,构建了一个特征矩阵,通过该矩阵我们可以训练和预测航空公司的延误,准确度约为80%
项目详情
建立了一个预测航空公司延误的模型,准确度约为80%
将航空公司数据集与UCI Repo的740万飞行记录一起使用
利用Pydoop实现MapReduce以构建特征矩阵
使用Pig脚本生成功能
使用Python,Scikit-Learn,Pig,Hadoop,HDFS,AWS EMR,IPython构建
技术指标
Python 2.7
Hadoop 2.7.3
Scikit学习
大熊猫
线性回
【文件预览】:
Predicting-Airline-Delays-master
----main.py(7KB)
----readme.md(1KB)
----pig.py(824B)
----script.pig(2KB)
----_config.yml(26B)
----readfile.py(316B)
----.gitignore(372B)
----script2.pig(3KB)