文件名称:air-quality-prediction:KDD Cup资料库,2018年
文件大小:3.2MB
文件格式:ZIP
更新时间:2024-05-28 12:13:06
seq2seq-model time-series-prediction JupyterNotebook
1.简介 数据挖掘比赛的主要任务是预测未来48小时北京和伦敦的空气质量(aq)。 使用seq2seq和xgboost模型,在最终排名第31位。 2.数据探索和预处理 2.1数据探索性分析 网站的。 不同站点的数据。 北京不同类型车站的 。 2.2数据预处理 然后将数据集分为训练,val和aggr数据集。 数据预处理 数据预处理步骤: 删除重复的数据。 某些小时数据已重复,请删除它们。 缺少价值处理。 如果连续5个小时所有站点的小时级别数据均丢失,则将这些丢失的数据以X或y表示的所有(X,y)数据都将被删除。 然后,如果连续不到5个小时所有站点的数据丢失,则使用丢失数据前后的数据线性生成填充数据。 在某些情况下,某些特定测站的数据为nan,然后使用最近的测站的数据进行填充。 分割数据 数据预处理后所有有效的数据点将分为三部分:训练集,验证集和聚合集。 训练集用于训练单个模型,
【文件预览】:
air-quality-prediction-master
----data_preprocess.py(671B)
----preprocess()
--------aq_data_preprocess.py(8KB)
--------meo_data_preprocess.py(7KB)
--------train_dev_set_split.py(2KB)
----train.py(6KB)
----utils()
--------aggregation.py(4KB)
--------information.py(4KB)
--------aq_data_util.py(8KB)
--------meo_data_util.py(14KB)
--------output_util.py(3KB)
--------actual_prediction_compare.py(6KB)
--------metrics.py(6KB)
--------feature_range_one_week.py(9KB)
--------plot_util.py(2KB)
--------kmedoids.py(2KB)
----results()
--------aggr_result.txt(46KB)
--------single_model_ld.txt(41KB)
--------single_model_bj.txt(40KB)
----model()
--------xgboost()
--------seq2seq()
--------model_data_util.py(6KB)
----README.md(6KB)
----.gitignore(59B)
----exploration()
--------clusting.ipynb(28KB)
--------ld_weather_data_exploration.ipynb(31KB)
--------bj_aq_data_preprocess.ipynb(66KB)
--------range_pattern_one_week.ipynb(884KB)
--------ld_aq_data_preprocess.ipynb(129KB)
--------ld_weather_data_preprocess.ipynb(20KB)
--------bj_aq_data_exploration.ipynb(563KB)
--------bj_weather_data_preprocess.ipynb(25KB)
--------bj_weather_data_exploration.ipynb(43KB)
--------prediction_actual_data_compare.ipynb(2.72MB)