文件名称:RandomForest_Spark:用火花实现一个随机森林
文件大小:18.16MB
文件格式:ZIP
更新时间:2024-06-13 03:14:15
Python
RandomForest_Spark 分类器为CART树的随机森林,用Spark实现并行 程序架构说明 data kaggle上面下载的数据集 docs 待完善的文档 素材文件夹是放一些类图等文件 forest.py 随机森林主函数 运行该文件并提供参数 node.py 决策树中节点数据结构 test 用于测试的文件,可以忽略 tree.py CART树的数据结构 util.py 一些通用函数 使用说明 python forest.py train_data_path predict_data_path result_data_path python forest.py data/train.csv data/test.csv data/result.csv 参数说明 每个节点分割时选择了0.15 × 特征值数量个特征 没有限制树的深度,即树会分裂到最底。平均树高25层左右
【文件预览】:
RandomForest_Spark-master
----node.py(982B)
----data()
--------test.csv(7.74MB)
--------result.csv(11KB)
--------train.csv(30.98MB)
----tree.py(3KB)
----README.md(756B)
----util.py(6KB)
----forest.py(4KB)
----docs()
--------素材()
--------配置文档.md(871B)
--------项目报告.wps(217KB)
----test()
--------plot.py(2KB)
--------result.csv(13KB)
--------train.csv(21.68MB)
--------predict.csv(9.29MB)