sample是在数据源取样。
val data = sc.parallelize(1 to 20)
data.sample(true,0.4).collect
sample第一个参数表示是否是重复抽样,如果是true,则抽象的结果可能会有重复的数字。而false代表抽样的结果是没有重复的。
sample第二个参数表示抽样的数量量,0.4代表是40%
sample是在数据源取样。
val data = sc.parallelize(1 to 20)
data.sample(true,0.4).collect
sample第一个参数表示是否是重复抽样,如果是true,则抽象的结果可能会有重复的数字。而false代表抽样的结果是没有重复的。
sample第二个参数表示抽样的数量量,0.4代表是40%