文件名称:data-preprocessing-python:用于预测建模的数据预处理实用程序
文件大小:16KB
文件格式:ZIP
更新时间:2024-06-10 15:09:23
Python
数据预处理 数据预处理是数据挖掘过程中的重要步骤。 短语“垃圾进,垃圾出”特别适用于数据挖掘和机器学习项目。 数据收集方法通常受到宽松的控制,导致值超出范围,不可能的数据组合(例如,性别:男性,孕妇:是),值丢失。 分析未经仔细筛选以解决此类问题的数据可能会产生误导性的结果。 因此,在进行分析之前,数据的表示形式和质量是首要的。 如果存在大量不相关和多余的信息或嘈杂且不可靠的数据,则在训练阶段发现知识将更加困难。 数据准备和过滤步骤可能会花费大量的处理时间。 数据预处理包括清理,规范化,转换,特征提取和选择。 数据预处理的产品是最终的训练集。 数据预处理例程涉及标准化(stndze),图形摘要(gs),偏度,峰度,创建虚拟变量,Box Cox转换等。 主要亮点 -标准化训练数据中的原始特征向量。 -计算特定值与平均值的偏差。 -创建代表训练数据的指标变量。 -计算训练集中样本的偏
【文件预览】:
data-preprocessing-python-master
----premodelling routines()
--------graphical summary()
--------skewness()
--------poisson transformation()
--------standardization()
--------deviation()
--------dummyvariable()
--------kurtosis()
--------boxcoxtransformation()
--------proportional transformation()
----README.md(3KB)
----license.md(11KB)