文件名称:论文研究-改进的并行随机森林算法及其包外估计.pdf
文件大小:1.01MB
文件格式:PDF
更新时间:2022-08-11 13:53:54
MapReduce,随机森林,包外估计,泛化误差,交叉验证
传统的包外估计记录全局数据与树之间的对应关系来测算泛化误差。然而基于MapReduce机制的并行随机森林算法(MR_RF)是建立在多个互不可见的分块数据上。对此分析MR_RF与RF的区别,设计了一个新的适用于MR_RF的包外泛化误差估计方法。主要将测算限定在数据块内,最终森林的泛化误差估计取块结果的平均。实验结果表明,新的包外估计方法与交叉验证在默认分块上的结果近似,却随着分块的增加出现偏差,对此分析了可能的原因,并给出选择集成方案思想,且分块大小与分类准确率成反比,与分类速率成正比。