文件名称:一种新的随机森林特征采样方法预测高维数据
文件大小:521KB
文件格式:PDF
更新时间:2024-06-18 11:05:34
研究论文
事实证明,随机森林(RF)模型在分类和回归方面均表现出色。 然而,由于装袋样本和特征选择中的随机化机制,当应用于高维数据时,RF 的性能会恶化。 在本文中,我们提出了一种新的RF特征采样方法来处理高维数据。 我们首先应用 p 值来评估特征重要性,以找到信息量大的特征和信息量少的特征之间的分界点。 然后使用一些统计措施将一组信息特征进一步分为两组,高度信息特征和信息特征。 在对特征子空间进行采样以学习 RFs 时,考虑了来自三组的特征。 新的子空间采样方法保持了森林的多样性和随机性,可以生成预测误差较低的树。 此外,分位数回归用于在回归问题中获得预测,以获得对异常值的鲁棒性。实验结果表明,所提出的学习随机森林的方法显着减少了预测误差,并且在处理高维数据时优于大多数现有的随机森林。