文件名称:数据异常类型-人脸识别图像预处理技术
文件大小:4.91MB
文件格式:PDF
更新时间:2024-06-29 11:23:57
数据挖掘算法 Python
17.1 数据异常类型 1. 数据错误 错误类型 脏数据或错误数据 ---- 比如 Age=-2003 数据不正确 ---- 比如 ‘0’代表真实的 0,还是缺失值 数据不一致 ---- 比如收入单位是万元,利润单位是元 数据重复 2. 缺失值 处理原则: 缺失值少于 20% •连续变量使用均值或中位数填补 •分类变量不需要填补,单算一类即可,或者用众数填补 缺失值在 20%-80% •填补方法同上 •另外每个有缺失值的变量生成一个指示哑变量,参与后续的建模 缺失值在大于 80% •每个有缺失值的变量生成一个指示哑变量,参与后续的建模,原始变量不使用。 3. 离群值 1)单变量离群值处理 绘图 在图中找出离群的异常值,根据情况对其进行删除或者对数据进行变换从而在数值上使其不离群或者 不明显 学生化(标准化) •用变量除以他们的标准误就可得到学生化数值 建议的临界值: –|SR| >2 ,用于观察值较少的数据集 –|SR| >3,用于观察值较多的数据集 2)多变量离群值 绘图 在图中找出明显的离群值 聚类法确定离群值