数据挖掘:描述性统计分析

时间:2024-03-17 09:41:39

数据分析的基础是统计学,统计学又分描述性统计和推断性统计,其中描述性统计又是统计学的基础,也是推断性统计的前导。其百度百科定义是这样的:描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。

一、集中趋势分析

  1. 平均数:平均数是总和除以总量。
  2. 中数:中位数是数值大小位于中间的值,其中数值根据总数的奇偶而不同。
    2.1 总数N为奇数时:(N+1)/2
    2.2 总数N为偶数时:[N/2+(N/2+1)]/2
  3. 众数:众数是出现次数最多的值。
    上面已经把描述性统计的分析维度和计算方法都讲清楚了,接下来我们借鉴一个例子来说明下。比如现在有一个班级的身高数据height = [165,166,167,168,170,170,170,172,175,180,190],我们如何描述这个班级身高的集中趋势呢?
    数据挖掘:描述性统计分析

二、离中趋势分析(离散)

  1. 极差:最大值减去最小值。
  2. 方差:所有数据与平均数之差平方和的平均数。
  3. 标准差:离均差平方的算术平均数的平方根,是方差的算术平方根。
  4. 变异系数:原始数据标准差与原始数据平均数的比。
    上面是从数据的离散程度来描述数据,我们还是用上面那个例子来说明数据的离散程度。
    数据挖掘:描述性统计分析
    z-score,除了上面离散的分析维度之外,我们还要介绍一个偏离程度,也就是测量值距均值相差的标准差数目,计算公式是:z-score = [X - mean(X)]/std(X),其中z-score分布的方差和标准差为1,均值为0。

三、相关分析

  1. 协方差(COV):如果有X,Y两个变量,每个时刻的“X值与其均值之差”乘以“Y值与其均值之差”得到一个乘积,再对这每时刻的乘积求和并求出均值,即为协方差。协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。协方差为正值表示正相关,负值为负相关,0为不相关。
  2. 相关系数(CORRCOEF):两个变量X,Y的协方差比上各自的标准差乘积。
    数据挖掘:描述性统计分析

参考文献
1.描述统计百度百科定义
2.使用Python进行描述性统计
3.Eun Sul Lee《数据分析方法五种》