1.2、数据质量分析
(1.数据质量分析的目的:
保证数据的正确性、保证数据的有效性
例如:国际漫游通话客户只有0.01%,因此对国际漫游通话时长该变量统计正确性毫无问题,也认为该变量缺少有效的信息而有数据质量问题,因为该变量提供好的信息只能对最多0.01%的客户产生影响,对未来预测模型的贡献实在是微乎其微。
(2.数据质量分析的内容:
在数据的正确性分析方面:
1、缺失值:缺失数据包括空值或编码为无意义的指(null)
2、数据错误:通常是在输入数据时,造成的排字错误
3、度量标准错误:正确输入但因为不正确的度量标准而导致的错误数据
4、编码不一致:通常包括非标准度量单位或不一致的值。例如,同时使用M和male表示性别;
在数据的有效性方面:
关注数据统计方面的信息;
例如:占比、方差、均值、分位数等,以此来了解这些数据包含的信息度程度。
(3.数据质量分析的方法:
1、值分析
例如:
通过本图,X37 和 X38 的非零百分比超过80%,其他变量多数为0,这些为0的变量包含的信息少,以此他们对数据进行挖掘意义不大。
如果为了保证数据的有效性,取阀值为80%,则这15个变量,又有X37 和 X38 会纳入下一轮数据样本的变量体系中。
1).唯一值分析:
它的最简单情况:是变量只有一个取值,这样的变量对于数据挖掘建模无法提供任何有效的信息。
例如,对于一定系统的变量:国籍———中国
另一种情况:对于变量业务含义有一定的了解,还能分析变量唯一值数比预期是多还是少。
例如:性别:男、女、不确定;如果出现4,5中取值就要查看是否存在数据的质量问题
2).无效值分析:
空值,空字符串,null,0(无意义)都是无效值,对于无效值较多的变量(例如:该变量无效值比例超过90%等),首先怀疑数据处理过程是否存在错误;
如无错误,对于极差或无效的变量,在建模时将慎用甚至弃用。
3).异常值分析:
在多数情况下,变量不允许出现负值、空值。异常值分析主要是分析变量是否存在异常值得情况,再结合一定的业务背景知识,确认是否存在错误的数据。
2、统计分析
统计的基本统计概念:总体和样本。从总体中随机产生若干个个体的集合成为样本。
从统计学的角度,统计的任务是由样本推断总体。
从数据探索角度,关注的通常由样本推断总体的数据特征。
1).基本统计量
(1)、表示位置的统计量:
1 众数:变量中发生频率最大的值。例如:用户状态(正常,欠费停机,申请停机,拆机、消号),该变量的众数是 “正常” 则是正常的。
2 中位数:中位数可避免极端数据,代表这数据总体的中等情况。例如:从小到大排序,总数是奇数,取中间的数,总数是偶数,取中间两个数的平均数。
3 算数平均数:又称均值,描述数据去指导额平均位置,数学表达式:~x (均值)= ∑x / n;
(2)、表示数据散度的统计量:
1 标准差:它是各个数据与均值偏离程度的度量,这种偏离也成异变。数学表达式:S = ([ ∑(x - ~x)² ] / n)½ ;这里可将n改为n-1,是无偏估计。
2 方差:标准差的平方。
3 极差:最大值和最小值之差。
(3)、表示分布形状的统计量:
1 偏度:正态分布的偏度为0,偏度<0称分布具有负偏离(左偏态),此时数据位于均值左边的位于右边的多,有个尾巴拖到左边,说明左边有极端值,偏度>0称分布具有正偏离(右偏态)。偏度接近如于0 ,可认为分布对称。例如:知道分布有可能在偏度上偏离正态分布,则可用偏度来检验分布的正态性。偏度的绝对值数值越大表示其分布形态的偏斜程度越大。
偏度计算公式:(n:总数; ~x:均值; SD:标准差)
2 峰度:描述总体中所有取值分布形态陡缓程度的统计量(与正态分布比较,,就是正态分布的峰顶)。例如:正态分布为3,若峰度 > 3 ,这表示分布有沉重的尾巴,说明样本中含有较多远离均值的数据。峰度的绝对值数值越大表示其分布形态的陡缓程度与正态分布的差异程度越大。
峰度计算公式:(n:总数; ~x:均值; SD:标准差)
统计量中最重要的是均值和标准差。样本是随机变量,所以用他们去推断总体时,可靠性和统计量的概率分布更准确。不过在数据挖掘的不同阶段,要用不同的统计量去认识和评估数据。
(4)、表示分布描述性统计量
1 分位数:将数据从小到大排序,小于某个值得数据占总数的百分比。例如:通常所说的中位数就是50%分位数,即小于中位数所占总数的50%。
随机变量的特征完全由它的概率分布函数或概率密度函数来描述。
设有随机变量 X ,其分布函数定义为 X <= x 的概率,即 F(x) = P { X <= x }是连续型随机变量。
则 其密度函数 P(x) 与 F(x)的关系为:
分位数,就可以用上面这样定义:对于 0 < α < 1 ,使某分布函数 F(x) = α 的 x ,为这个分布的 α 分位数,记作 Xα 。
对于下面要讲的直方图频数分布图,当 n 充分大时,频率就是频数的近似,因此直方图可以看作密度函数图形的(离散化)近似。
2).统计信息方法分析
如图所示:均值,最大值,最小值,中位数描述的是数据的基本特征,从数据的质量分析的角度来讲,极差、方差、标准差更有用,因为这几个统计量更关注这个变量所有数据的特征。
例1:如果发现某些数据的极差变化很大,则说明这些数据的数据量级差别很大,很可能需要对数据进行归一化处理。
例2:如果发现一些变量的标准差很小,则说明数据的变化很大,有可能说明这个变量所包含的信息比较少,在数据挖掘中就可以考虑是否需要删除这些变量。
认识统计变量的本身不同的特征,需要注意一下几点:
(1,)、查看数据与正态分布的接近程度(即分析数据的的分布情况,这是核心),可以选取有代表性的统计量表示整体情况。例如:在数据分布为正态时,可以用均值来代替数据的整体情况,在数据分布较为偏斜时,众数与中数就能代替数据的整体情况。
(2)、用均值和极值评判时,要有一定的业务常识,或与历史进行对比。例如:查看最小值是否符合业务逻辑,最高值是否准确,真实。均值是否合理。单纯均值和极值评判时需要借助一定的业务经验。具有局限性。
(3)、标准差反映数据的分散程度。
如图:深灰,浅灰,淡灰区域分别对应1,2,3倍标准差,对应的概率为68.3%,95.5%,99.7%。
例如:变量是以正态分布的,则当最大值(或最小值)与均值的差超过3倍标准差时,很可能这些极值存在问题。
现实中,一方面数据量巨大,因此,极值超过3倍标准差也是正常的,另一方面,许多变量分布并不满足正态分布,使用时要注意。
3、频次图与直方图分析
通过频次图与直方图分析能对数据进行更深入、更直观的分析。同时,可以有效地观测出数据分布的两个重要特征:集中趋势和离散趋势。
1).直方图分析
直方图适用于对大量连续性数据进行整理加工,找出其统计规律,以便对其总体分布特征进行推断。
直方图(数值等宽)分析步骤如下:
(1)、找出最大,小值
(2)、先排序,然后分组(6~20组为宜)
(3)、组数/(最大值-最小值),求出组距宽度
(4)、计算各组 界限位(上、下界限位)。
(5)、统计各组数据出现的频数,作频数分布表
(6)、以组距为底长,以频数为高,作各组的矩形图。
其中各组的界限位可以从第一组一次计算,第一组的 下界=最小值-(组距/2),上界=下界值+组距; 第二组的下界=第一组的上界 ,上界=第二组下界+组距
例子1:
这是一个比较正常的直方图
例子2:
该图变量的数据过于集中,这对数据挖掘来说意义不大,所以就可以删除该变量。
2).频次图分析
频次图是为了计算离散型数据各值分布情况的统计方法,它有助于理解某些特殊数值的意义,同时它也可以支持多个维度组合分布情况。
对分类变量进行频次图分析步骤:
(1)、集中和记录数据,计算总的分类数N
(2)、将数据按序排列,分为N组
(3)、统计各组数据出现的频数,作频数分布表
(4)、作频次图
例子:
这是2000-2014年的全球7级以上的地震频次图,分类是按年份。
4、衍生变量
它是由其他既有变量通过不同形式的组合而衍生的变量,衍生变量与原始变量有一定的相关性,但是不是所有的衍生变量都有意义,要适度,看情况。
例子:密度 = 质量 / 体积 ; 线密度 = 质量 /长度 ;要研究那个物体可以漂浮在水面上,只要根据密度这一衍生变量就可以判断出。
衍生变量是数据挖掘探索最重要的环,但是对于一个项目来说,有无数个衍生变量。
几个基本的衍生变量的方法:
(1)、对多个列变量进行组合
例如:身高的平方 / 体重 (肥胖指数) ; 负债 / 收益 ; 总通话时间 / 总呼叫次数 ; 网页访问量 / 购买总量 等;
(2)、按照维度(也叫变量)分类
例如:在分析无线通信酷虎六十现象时发现,按照手机型号分类汇总的流失率比单纯用手机型号分类的数据更有用。
(3)、对某个变量进一步分解
例如:对于日期变量,可进一步分解为季度、节假日、工作日、周末 等变量。
(4)、对具有时间序列特征的变量可以进一步提取时序特征。
例如:一段时间的总开销量、平均增长率、初始值与终值的比率、两个相邻值之间的比率、顾客在暑假购物占年度比重、周末电话平均长度与每周电话平均长度。
例子:证劵市场上的各种技术指标基本都是衍生变量。
(1)、环境准备与读取原始数据
(2)、计算衍生变量
(3)、收集并保持数据
(4)、数据可视化
比如:
(5)、评价型衍生变量
在衍生变量中有一类重要的衍生变量,这类变量作用是用于评价被挖掘事物和好坏,就是评价型衍生变量(目标,比如:好坏等),而其他的叫指标型衍生变量。
因为数据挖掘中很多算法是机器学习算法,这类算法的典型特点是需要有输入和输出的样本训练机器。
比如:评价股票的好坏,针对上面的可视化结果,在根据一定规则进行衍生得到它的好坏。
重复一到四步,生成可视化图:
(6)、衍生变量的收集与集成
当产生衍生变量后,为了便于后学的数据处理,通常需要将数据收集在一起,如果在不同的文件或表中,也常常合并在一种表中。
5、数据可视化
对数据可视化,经过分析,筛选出我们需要的好数据。
1)、数据分布形状可视化
例如:柱状分布图
通过图可以看到dv3过于集中,相当于固定值,这种最好删除。可见对数据进行可视化分析意义很大。
2)、数据关联情况可视化
在进行变量筛选前,可先利用关联可视化了解各变量的关联关系。
例如:
通过该图可以看出任意两个变量的关联趋向。
通过该图,从宏观上表现出变量间的关联强度,实践中往往用于筛选变量。
3)、数据分组可视化
它是按照不同的分位数将数据进行分组,典型的图形就是箱体图。根据香体乳可以看出数据的分布特征和异常值的数量,这对于确定是否需要进行异常值处理很有利。
例如: