文件名称:kddcup2018-of-fresh-air:#30在KDD CUP 2018 https
文件大小:73KB
文件格式:ZIP
更新时间:2024-06-04 23:22:37
Python
哇〜! KDD的其他竞争对手。 我在第一天参加了这项比赛,很快就建立了一个合理的基准。 由于某些私人方面的原因,自5月初以来,我几乎停止改善自己的解决方案。 尽管与第2阶段的许多*参与者相比,我的方法不能很好地发挥作用,但是我认为我的解决方案由于相对简单而值得共享。 我一点也没有接触过meo数据,我的一个模型只是计算中位数。 替代数据源 对于新每小时的空气质量数据,在论坛上为共享,我使用伦敦和对北京而不是从组织者的API。 处理丢失的数据 我通过3个步骤填充了空气质量数据中的缺失值: 根据其他测站的值填充测站组合的缺失值。 具体来说:我为此训练了131个lightgbm回归器。 如果北京奥特中信站5月20日2:00的PM2.5读数丢失,则回归器aotizhongxin_aq-PM2.5将基于5月20日2:00已知的北京其他34个站的PM2.5读数来预测该值。 我使用阈值来决定是否进行这
【文件预览】:
kddcup2018-of-fresh-air-master
----README.md(5KB)
----daily_job.sh(297B)
----download_data.sh(2KB)
----requirements.txt(174B)
----python()
--------prophet.py(12KB)
--------external_data_download.py(9KB)
--------lgbm_imputer.py(5KB)
--------util.py(28KB)
--------nn_model_arch.png(48KB)
--------constants.py(4KB)
--------process_history_data.py(2KB)
--------__init__.py(0B)
--------rolling_summaries.py(13KB)
--------shortcut_mlp.py(19KB)