1.常用的图来分析数据
1.1 箱型图:分析异常值
箱线图的存在主要是用来分析异常值。
【异常值】
异常值也叫离群点,异常值的存在经常会导致数据整体的偏差增大等问题。判断异常值的标准有如下:
① 通过最大值和最小值:
例如:用户的年龄不可能超过199岁,小孩的年龄不可能是-1岁,利用这些简单的统计量分析可以判断异常值
② 通过 原则:
如果数据服从正态分布,在原则下,异常值被定义为一组测定值中与平均值的偏差超过 3倍标准差 的值。如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述。
③ 使用箱型图
箱型图提供了几个指标:
- 下界
- 下四分位数: 表示全部观察值中有1/4的数据值比它小
- 中位数
- 均值
- 上四分位数: 表示全部观察值中有1/4的数据值比它大
- 中位数
- 上界
表示四分位数间距, 其间包含了全部观察值的一半。
1.2 频率分布表、频率分布直方图、茎叶图:进行“定量数据”的分布分析
分析步骤:
① 求极差
② 决定组距和组数
③ 决定分点
④ 列出频率分布表
⑤ 绘制频率分布直方图
遵循原则如下:
① 各组之间必须是相互排斥的
② 各组必须将所有的数据包含在内
③ 各组的组宽最好相等
1.3 饼图、条形图:“定性数据”的分布分析
【饼图】
饼图的每一个扇形部分代表每一类型的百分比或频数,根据定性变量的类型数目将饼图分成几个部分,每一部分的大小与每一类型的频数成正比
【条形图】
条形图的高度代表每一类型的百分比或频数,宽度没有意义
1.4 散点图:相关性分析
【直接绘制散点图】
判断两个变量之间是否具有线性相关关系最直观的方法是直接绘制散点图。
【散点图矩阵】
需要同时考量多个变量之间的相关关系时,如果逐一绘制他们之间的简单散点图比较麻烦;可以利用散点图矩阵同时绘制各变量之间的散点图,从而快速发现多个变量之间的主要相关性,这在进行多元线性回归时尤为重要。
【相关系数计算】
为了更加准确地描述变量之间的线性相关程度,可以通过计算相关系数来进行相关的分析。
二元变量中常用的相关系数有 Pearson相关系数、Spearman秩相关系数和判定系数
在python 中,如果要计算变量与其他变量的相关性,可以使用 data.corr()
语句,这种方式计算两个 Series 格式的数据的相关性
2. 使用统计量分析数据(均值、中位数、众数、极差、标准差、四分位数间距)
2.1 集中趋势度量
【均值】
① 均值
② 加权均值
均值对于极端值和异常值非常敏感;为了减少少数极端值的影响,可以使用截断均值和中位数来度量数据的集中趋势。截断均值 指的是去掉高、低极端值之后的平均数。
【中位数】
在全部数据中,大于和小于中位数的数据的个数是相等的。
【众数】
众数是指数据集中出现最频繁的值,众数具有不唯一性,一般用于离散变量而非连续型变量。
2.2 离中趋势度量
【极差】
极差 = 最大值-最小值
极差对数据集的极端值非常敏感,并且忽略了位于最大值与最小值之间的数据分布情况。
【标准差/方差】
衡量数据偏离均值的程度,用 表示
【变异系数】
变异系数衡量标准差 相对于均值的离中趋势,公式为:
【四分位数间距】
因为四分位数间距是由上四分位数与下四分位数之差决定的;四分位数间距越大表示的数据变异的程度越大,反之,变异程度越小。