文件名称:spark-stat:使用 Spark 计算加权方差
文件大小:915KB
文件格式:ZIP
更新时间:2024-07-03 12:03:52
Scala
使用 Spark 计算加权方差 DoubleRDD上的stat()函数以数值稳健的方式计算 RDD 值的计数、均值和方差,并在实例中返回该信息。 上述函数的输入值都是未加权的,我遇到了每个输入值都与一个权重相关联的情况,我需要计算加权均值和加权方差。 当然,所有这些都必须在线和在大量 RDD 上完成。 的文章让我对加权增量过程有了很好的复习。 因此,我公然将原始StatCounter代码撕成WeightedStatCounter并调整merge函数以考虑WeightedValue形式的WeightedValue输入。 代码是用编写的,所以我创建了隐式类来启用对WeightedValue的RDD和“新”数据的stats函数的调用 val values = Seq ( WeightedValue ( 10.0 , 1.0 ), WeightedValue ( 12.0 , 2.
【文件预览】:
spark-stat-master
----.gitignore(197B)
----README.md(3KB)
----LICENSE(11KB)
----src()
--------test()
--------main()
----media()
--------StandardDistance.png(741KB)
--------Catalog.png(138KB)
----data()
--------points.csv(47KB)