hadoop-imbalanced-preprocessing:MapReduce 使用 Hadoop 实现随机过采样、随机欠采样和“合成少数过采样技术”(SMOTE)算法

时间:2024-06-18 00:21:06
【文件属性】:

文件名称:hadoop-imbalanced-preprocessing:MapReduce 使用 Hadoop 实现随机过采样、随机欠采样和“合成少数过采样技术”(SMOTE)算法

文件大小:501KB

文件格式:ZIP

更新时间:2024-06-18 00:21:06

Java

MapReduce 使用 Hadoop 实现随机过采样、随机欠采样和“合成少数过采样技术”(SMOTE)算法 大数据的随机过采样:MapReduce 的近似 随机过采样 (ROS) 算法已适应于遵循 MapReduce 设计来处理大数据,其中每个 Map 进程负责通过少数类实例的随机复制来调整映射器分区中的类分布,Reduce 进程负责收集每个映射器生成的输出以形成平衡数据集。 该过程如图 1 所示,包括四个步骤:初始、映射、缩减和最终。 图 1:ROS MapReduce 设计如何工作的流程图。 大数据的随机欠采样:按照MapReduce程序选择样本 适用于处理大数据的随机欠采样 (RUS) 版本遵循 MapReduce 设计,其中每个 Map 进程负责按类对其数据分区中的所有实例进行分组,Reduce 进程负责收集每个映射器的输出并平衡通过随机消除多数类实例来形成平衡数据集的类分布。


网友评论