数据挖掘:数据处理-异常值处理

时间:2024-03-15 09:35:40

1,什么是异常值?
   异常值即是样本数据中的离群点,将那些明显与其他样本不同的数据视为异常值。异常值虽然数量较少,但是对于模型(对异常值敏感的模型)的影响很大,所以必须对异常值进行处理。

数据挖掘:数据处理-异常值处理

2,异常值的来源
   异常值的来源主要分为人为误差和自然误差,具体来说包括以下几类:数据输入错误、测量误差、实验误差、故意异常值、数据处理错误、抽样错误、自然异常值。总而言之,在数据处理的任何环节都有可能产生异常值。

3,异常值识别
   最常用的检测异常值的方法是可视化,从可视化结果中发现离群点,从而发现异常值,具体可以使用各种可视化方法,如Box plot,Histogram,Scatter Plot。同时也还可通过统计学的方法识别异常值:
(1)简单统计分析:对属性值进行一个描述性的统计,从而查看哪些值是不合理的。比如对年龄这个属性进行规约:年龄的区间在[0:200],如果样本中的年龄值不在该区间范围内,则表示该样本的年龄属性属于异常值。
(2)小于5%或大于95%的任何值都可以被认为是异常值,这种判定方法是比较粗糙的。
(3)3δ原则:根据正态分布的定义可知,距离平均值3δ之外的概率为 P(|x-μ|>3δ) <= 0.003 ,这属于极小概率事件,在默认情况下我们可以认定,距离超过平均值3δ的样本是不存在的。因此,当样本距离平均值大于3δ,则认定该样本为异常值。当数据不服从正态分布,可以通过远离平均距离多少倍的标准差来判定,多少倍的取值需要根据经验和实际情况来决定。
(4)箱线图分析:箱线图(Boxplot)也称箱须图(Box-whisker Plot),是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息。箱线图识别异常点的具体方法如下:首先计算出第一四分位数(Q1)、中位数、第三四分位数(Q3)。中位数我们都知道,就是将一组数字按从小到大的顺序排序后,处于中间位置(也就是50%位置)的数字。 同理,第一四分位数、第三四分位数是按从小到大的顺序排序后,处于25%、75%的数字。令 IQR=Q3−Q1,那么 Q3+1.5(IQR) 和 Q1−1.5(IQR) 之间的值就是可接受范围内的数值,这两个值之外的数认为是异常值。在Q3+1.5IQR(四分位距)和Q1-1.5IQR处画两条与中位线一样的线段,这两条线段为异常值截断点,称其为内限;在Q3+3IQR和Q1-3IQR处画两条线段,称其为外限。 处于内限以外位置的点表示的数据都是异常值,其中在内限与外限之间的异常值为温和的异常值(mild outliers),在外限以外的为极端的异常值的异常值(extreme outliers)。箱型图选取异常值比较客观,在识别异常值方面有一定的优越性。

数据挖掘:数据处理-异常值处理

4,异常值处理
   异常值的处理方法类似于缺失值处理方法:
(1)删除:删除含有异常值的样本。
(2)视为缺失值:将异常值视为缺失值,使用缺失值处理方法来处理。
(3)单独处理:如果有大量异常值,应该在统计模型中单独对待它们。 其中一个方法是将异常数据视为单独的一组,为两组样本分别建立模型,然后组合输出。

参考:
https://blog.csdn.net/jyxmust/article/details/80659324