文件名称:元清理:通过元学习进行数据准备
文件大小:2.03MB
文件格式:ZIP
更新时间:2024-03-04 00:46:49
JupyterNotebook
MetaPrep:通过元学习优化数据准备 MetaPrep是使用Python开发的工具,用于基于元学习(一种从过去的经验中学到的技术)进行预处理和自动数据清除。 因此,当提供要清理的新数据集时,该工具为存在的数据类型选择理想的技术,并返回要使用的5条管道建议。 除了自动预处理之外,MetaPrep是可延展的,允许开发人员根据算法中存在的技术定义自己的管道。 MetaPrep中存在的技术: 归零数据: 删除案例,平均值,中位数和最常见。 标准化和标准化: 标准定标器,minmax和归一化器; 分类数值转换: 一键编码和标签编码器; 类平衡: 过采样和欠采样。 要求 Python >= 3.7 Pandas >= 1.2.1 Numpy >= 1.19.2 Pickle >= 4.0 Scikit-learn >= 0.24.1 Imbalanced-learn == 0.7.0 P
【文件预览】:
metacleaning-main
----meta-knowledge()
--------meta-knowledge2.csv(9KB)
--------meta-knowledge4.csv(22KB)
--------meta-knowledge3.csv(32KB)
--------meta-knowledge5.csv(14KB)
--------meta-knowledge.csv(104KB)
--------meta-knowledge1.csv(31KB)
----pipelines()
--------case2.csv(1KB)
--------case5.csv(2KB)
--------case3.csv(702B)
--------All pipelines.txt(21KB)
--------case1.csv(438B)
--------case4.csv(1KB)
--------pipelines.csv(4KB)
----utils.py(13KB)
----Creating meta-models.ipynb(7KB)
----experiments_results()
--------results.pickle(421KB)
----Experiments.ipynb(2.88MB)
----csv_results()
--------bike_buyers_clean.csv(84KB)
--------bikebuyers_train.csv(63KB)
--------titanic_test.csv(28KB)
--------cardio_train.csv(2.1MB)
--------tictactoe_test.csv(7KB)
--------tictactoe_train.csv(19KB)
--------titanic_train.csv(60KB)
--------tic-tac-toe.data.csv(26KB)
--------titanic.csv(60KB)
--------cardio.csv(2.81MB)
--------bikebuyers_test.csv(21KB)
--------cardio_test.csv(718KB)
----Test 2 - Autosklearn.ipynb(35KB)
----Test 1 - Meta-models.ipynb(64KB)
----Test 3 - Learn2Clean.ipynb(79KB)
----metamodels()
--------metamodel_case4.pickle(26KB)
--------metamodel_case3.pickle(34KB)
--------metamodel_case5.pickle(16KB)
--------metamodel_unique.pickle(114KB)
--------metamodel_case2.pickle(11KB)
--------metamodel_case1.pickle(34KB)
----Characterization.ipynb(282KB)
----README.md(2KB)
----metaprep.py(9KB)