数据预处理之后,我们要做一些统计分析,来观察我们的数据,这其中包括 描述性分析、统计推断。
描述性分析:
主要是统计指标、图表。
1、集中趋势分析
除了分位数,我们还可以结合 中位数、众数、平均数三者的关系。具体地:
众数在中位数左侧,平均数在中位数右侧,则此时数据呈正偏态分布,又叫右偏,存在极大异常值。是不是可以考虑删除或替换为平均值
众数在中位数右侧,平均数在左侧,数据呈负偏态,左偏。可能存在极小异常值。
2、离散趋势分析
有极差、四分差、方差和标准差。
极差受极值影响,四分差虽然掐头去尾,但是丢失大量数据信息。最常用的是方差和标准差。
3、分布情况的测度
偏态和峰度。
偏态系数SK,峰度看数据的扁平程度。
4、图形分析
上面我们是看一些统计指标,可能不太直观。
a、直方图和密度函数图
密度函数图可以根据已知样本估计样本的密度函数曲线。
正偏态,右偏,有极大值。
b、QQ图
用来验证数据是否某个分布,或者验证两组数据是否来自同一个分布。
常用来验证是否正态分布。QQ散点图上的散点应该均匀地分布在QQ直线两侧。
c、箱线图
极大值、极小值、下四分位值、上四分位,加中位数。常用来看离群点。
d、多组数据分析
- 协方差的大小一定程度上反映了变量之间的相互关系,但她受变量本身度量单位的影响,因此我们还要计算
- 相关系数,包括皮尔逊系数(数据线性关系),Kendall、Spearman系数(秩相关性,当数据不是线性的 而是单调的?http://www.cnblogs.com/zhangchaoyang/articles/2631907.html)
- 二维散点图,矩阵散点图,折线图等等。
统计推断: 两步走,参数估计和假设检验。 作用:知道了样本的分布后,下一步就是推断总体的分布和特征啦。
点估计:
区间估计: