文件名称:基于MapReduce的非平衡大数据集分类
文件大小:2.25MB
文件格式:CAJ
更新时间:2023-02-04 05:03:40
MapReduce 数据集 分类
非平衡大数据集分类是近年来机器学习领域的研究热点。因为许多实际应用领域中都存在非平衡大数据,如医疗诊断数据、信用卡欺诈检测数据、网络入侵检测数据等集。所以研究非平衡大数据集分类具有重要的理论意义和实际应用价值。针对两类非平衡大数据集分类,本文提出了正类样例交叉上采样与分类器集成相结合的方法。具体地,在上采样阶段,正类样例的上采样按下面两步交叉进行:第一步,利用Map Reduce计算正类样例的类中心,并在中心与每一个正类样例点的连线上进行采样;第二步,对新采样的正类样例中的每一个样例点,用Map Redcue计算它的k个负类近邻,并在每一个样例点与它的k个负类近邻点的连线上进行采样。第一步和第二步交叉采样若干次,得到一个上采样的正类样例集合(不要求正类样例与负类样例达到平衡)。在分类器集成阶段,首先以上采样得到的正类样例为标准,从数据集中采样等量的负类样例若干次,分别与正类样例组成若干个平衡化的数据集。然后用极限学习机从平衡化的数据集上训练基本分类器,并用简单的多数投票法进行集成。实验结果显示本文提出算法具有较好的加速比和可扩展性。