KDDCup2018:KDD Cup 2018新鲜空气

时间:2024-06-05 05:16:59
【文件属性】:

文件名称:KDDCup2018:KDD Cup 2018新鲜空气

文件大小:151KB

文件格式:ZIP

更新时间:2024-06-05 05:16:59

JupyterNotebook

KDDCup 2018 数据 提取码:z8jp 提取码:i4kw 提取码:eykr 提取码:p4rp 提取码:ig8c 提取码:gj97 提取码:pa44 提取码:c2kw 解决方案 数据清洗 数据清洗主要针对提供的数据中的缺失值和不正常数据。对于某一天除站点位置信息外所有空气质量信息全部缺失的一行数据直接舍弃,只有部分数据缺失尝试进行填充。尝试过的填充方案有用0填充,用均值填充和用前驱数据填充,从结果来看,填充的数据不应该破坏随时间平滑变化的趋势,因此采用前驱数据进行填充是一个不错的选择(预测方向为时间上的向后,所以不采用后继数据填充)。除了缺失值以外,数据中还有很多非正常数据。比如说明中提到的静风风速的表示,和明显过大的偏离数据,这部分数据采用在有效范围内随机生成的数据替代。在zhiwuyuan这个站点还出现了一行数据全部用999表示的脏数据,甚至在一段较长的连续时间内


【文件预览】:
KDDCup2018-master
----api()
--------get_data_bj.ipynb(10KB)
--------api_submit.py(512B)
----DataClean()
--------clean_aq.ipynb(41KB)
--------haidian_plot.ipynb(88KB)
--------merge_data.ipynb(3KB)
--------clean_meo.ipynb(14KB)
--------London_historical_forecast_clean.ipynb(48KB)
--------scheme1.ipynb(13KB)
----readme.md(5KB)
----Models()
--------ridge-train.py(3KB)
--------linearmodel.ipynb(43KB)
--------ridge-predict.py(4KB)
--------SVR.ipynb(10KB)
--------NN()
--------ridge-lasso.ipynb(57KB)
--------RF-xgboost.ipynb(11KB)

网友评论