文件名称:Python数据分析与挖掘实战学习笔记(3).md
文件大小:19KB
文件格式:MD
更新时间:2023-01-13 16:04:32
数据分析 数据挖掘
本章主要介绍了数据预处理的4个主要任务:数据清洗、数据集成、数据变换和数据规约。数据清洗主要介绍了对缺失值和异常值的处理,延续了第三章的缺失值和异常值分析的内容,本章主要介绍的处理缺失值的方法分为3类:删除记录、数据插补和不处理,处理异常值的方法有删除含有异常值的记录、不处理、平均值修正和视为缺失值;数据集成是合并多个数据源中的数据,并存放到一个数据存储的过程,对该部分的介绍从实体识别问题和冗余属性两个方面进行;数据变换介绍了如何从不同角度对已有属性进行函数变换;数据规约从属性(纵向)规约和数值(横向)规约两个方面介绍了如何对数据进行规约,使挖掘的性能和效率得到了很大的提高。通过对原始数据的处理,将为后续挖掘建模提供良好的数据基础。