文件名称:spark-iforest:星火上的隔离森林
文件大小:46KB
文件格式:ZIP
更新时间:2024-05-29 02:46:07
spark pyspark anomaly-detection spark-ml isolation-forest
星火森林 隔离林(iForest)是关注异常隔离的有效模型。 iForest使用树结构来对数据建模,与正常点相比,iTree隔离离树根更近的异常。 通过iForest模型计算异常分数,以测量数据实例的异常。 越高,越异常。 有关iForest的更多详细信息,请参见以下论文:[1]和[2]。 我们在Spark上设计并实现了分布式iForest,该iForest通过基于模型的并行性进行训练,并通过基于数据的并行性来预测新的数据集。 它通过以下步骤实现: 从数据集中采样数据。 为每个iTree采样数据实例并将其分组。 如该论文所述,用于构建每棵树的样本数量通常不是很大(默认值256)。 因此,我们可以构造采样对RDD,其中每个行键是树索引,行值是一组树的采样数据实例。 通过地图操作并行训练和构建每个iTree,并收集所有iTree来构建iForest模型。 使用收集的iForest模
【文件预览】:
spark-iforest-master
----.gitignore(40B)
----data()
--------anomaly-detection()
----src()
--------main()
--------test()
----.travis.yml(67B)
----LICENSE(11KB)
----pom.xml(5KB)
----README.md(11KB)
----python()
--------setup.py(1KB)
--------.gitignore(244B)
--------LICENSE(11KB)
--------README.md(684B)
--------requiremets.txt(35B)
--------pyspark_iforest()