统计图应用实例讲解之箱形图应用分析

时间:2024-03-28 19:39:23

箱形图定义

箱形图(Box-plot)是统计学中一种常见的统计数图,由于其图形与箱子类似而得名,所以又有"箱线图"、"盒须图"、"盒式图"等名称。箱形图可以统计出单变量数据的离散程度,将数据的离散程度以及分布区间清晰直观地表现出来,同时可以突出异常数据值。箱形图作为一种重要的统计图表,在众多的学科和领域中都有着越来越多的应用。

统计图应用实例讲解之箱形图应用分析

它由五个数值点组成:最小值(min),下四分位数(Q1),中位数(median),上四分位数(Q3),最大值(max)。也可以往盒图里面加入平均值(mean)。由于现实数据中总是存在各式各样地“脏数据”,也成为“离群点”,于是为了不因这些少数的离群数据导致整体特征的偏移,将这些离群点单独汇出,而盒图中的胡须的两级修改成最小观测值与最大观测值。这里有个经验,就是最大(最小)观测值设置为与四分位数值间距离为1.5个IQR(中间四分位数极差)。

分位数

概率分布的分位数(分为点)

定义:分位数指的就是连续分布函数中的一个点,这个点对应概率p。若概率0<p<1,随机变量X或它的概率分布的分位数Za,是指满足条件p(X≤Za)=α的实数

统计图应用实例讲解之箱形图应用分析

统计图应用实例讲解之箱形图应用分析

 

四分位数

四分位数(Quartile),即统计学中,把所有数值由小到大排列并分成四等份,处于三个分割点位置的得分就是四分位数。

第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。

第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。

第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。

第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range,IQR)。

首先确定四分位数的位置:

Q1的位置= (n+1) × 0.25

Q2的位置= (n+1) × 0.5

Q3的位置= (n+1) × 0.75

n表示项数

对于四分位数的确定,有不同的方法,另外一种方法基于N-1 基础。即

Q1的位置=(n-1)x 0.25

Q2的位置=(n-1)x 0.5

Q3的位置=(n-1)x 0.75


正态分布

正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),最早由A.棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。
正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。
若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。

统计图应用实例讲解之箱形图应用分析

正态分布以均数为中心,左右两侧对称,靠近均数两侧的频数较多,而距均数两侧较远处,频数逐渐减少,形成钟型分布。

箱形图特点

用箱线图识别异常值的好处:
 一批数据中的异常值是值得关注的,我们通过分析异常值产生的原因,往往能够发现解决问题的机会。虽然箱线图判断异常值的方法看起来有一定的任意性,但经验表明其在实际工作中具有较大的实用价值,其在处理需要特别注意的数据方面表现不错。它可以不受异常值的影响,能够稳定地描绘出数据的离散分布情况,同时也利于数据清洗。

1. 观察数据的总体状态 
这也是箱线图最常用的作用,从中我们可以观察到数据的分位数、中位数及平均值等统计信息,并可以根据中位数和平均值的相对位置大致判断数据的分布形态。

2.识别数据中的异常值 
在箱线图中,上图中的下边界和上边界也成为内限,此外箱线图还有外限(Q1-3IQR和Q3+3IQR),箱线图上,超过内限的数据都被认为是异常值,其中在内限和外限之间的数据被称作温和异常值(mild outliers),在外限之外的数据被称为极端异常值(extreme outliers)。

3、连续型数据:在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的。例如,生产零件的规格尺寸,人体测量的身高、体重等,其数值只能用测量或计量的方法取得。可视化这类数据的图表主要有箱形图和直方图。

4、离散型数据:数值只能用自然数或整数单位计算的则为离散变量。例如,企业个数,职工人数,设备台数等,只能按计量单位数计数,数值一般用计数方法取得。大多数图表可视化的都是这类数据,比如柱状图、折线图等。

 

应用场景:学生成绩分布情况

分析不同学年、不同科目的学生成绩也是箱线图的常见应用场景。下图中我们可以看到学生的英语成绩相对其它科目普遍较好,而数学则大部分都在80分以下。

统计图应用实例讲解之箱形图应用分析