数据的统计分析

时间:2021-08-18 16:54:52

数据预处理之后,我们要做一些统计分析,来观察我们的数据,这其中包括 描述性分析、统计推断。


描述性分析:

主要是统计指标、图表。

1、集中趋势分析

除了分位数,我们还可以结合 中位数、众数、平均数三者的关系。具体地:

众数在中位数左侧,平均数在中位数右侧,则此时数据呈正偏态分布,又叫右偏,存在极大异常值。是不是可以考虑删除或替换为平均值

众数在中位数右侧,平均数在左侧,数据呈负偏态,左偏。可能存在极小异常值。


2、离散趋势分析

有极差、四分差、方差和标准差。

极差受极值影响,四分差虽然掐头去尾,但是丢失大量数据信息。最常用的是方差和标准差。


3、分布情况的测度

偏态和峰度。

偏态系数SK,峰度看数据的扁平程度。


4、图形分析

上面我们是看一些统计指标,可能不太直观。

a、直方图和密度函数图

密度函数图可以根据已知样本估计样本的密度函数曲线。

数据的统计分析

正偏态,右偏,有极大值。

b、QQ图

用来验证数据是否某个分布,或者验证两组数据是否来自同一个分布。

常用来验证是否正态分布。QQ散点图上的散点应该均匀地分布在QQ直线两侧。

数据的统计分析

c、箱线图

极大值、极小值、下四分位值、上四分位,加中位数。常用来看离群点。


d、多组数据分析

  • 协方差的大小一定程度上反映了变量之间的相互关系,但她受变量本身度量单位的影响,因此我们还要计算 
  • 相关系数,包括皮尔逊系数(数据线性关系),Kendall、Spearman系数(秩相关性,当数据不是线性的 而是单调的?http://www.cnblogs.com/zhangchaoyang/articles/2631907.html)
  • 二维散点图,矩阵散点图,折线图等等。


统计推断: 两步走,参数估计和假设检验。 作用:知道了样本的分布后,下一步就是推断总体的分布和特征啦。
点估计:


区间估计: