文件名称:Imb-sampling-ROS_and_RUS:不平衡分类数据集的两种数据采样方法(随机过采样和随机欠采样)的Spark实现
文件大小:10KB
文件格式:ZIP
更新时间:2024-06-07 08:43:00
Scala
Imb-sample-ROS_and_RUS 针对不平衡数据的两种数据采样方法(随机过采样和随机欠采样)的Spark实现。 示例(欠采样): 参数 “标题的路径”“火车的路径”“分区数”“多数类的名称”“少数类的名称”“ pathOutput” spark-submit --class org.apache.spark.mllib.sampling.runRUS Imb-sampling-1.0.jar hdfs://hadoop-master/datasets/data.header hdfs://hadoop-master/datasets/train.data 250 0 1 hdfs://hadoop-master/datasets/train-under.data 示例(过采样): 参数 “标题的路径”“火车的路径”“分区数”“分区数”“多数类别的名称”“少数类别的名称”
【文件预览】:
Imb-sampling-ROS_and_RUS-master
----src()
--------org()
----LICENSE(11KB)
----README.md(1KB)
----pom.xml(3KB)