简单了解箱型图

时间:2024-03-29 15:52:00

 

一、什么是箱型图

箱线图(Boxplot)也称箱须图(Box-whisker Plot)、盒式图或箱线图,是利用数据中的五个统计量:最小值、上四分位数、中位数、下四分位数与最大值来描述数据的一种统计图。它能够直观地显示数据的异常值,分布的离散程度以及数据的对称性。

简单了解箱型图

中位数:数据按从小到大顺序排列后的处于中间位置的值,如果序列是偶数个,则是中间两个数的平均值

下四分位数Q1:位于数据序列25%位置处的数

上四分位数Q3:位于数据序列75%位置处的数

四分位间距IQR:即 IQR = Q3-Q1

下边缘:= Q1 – 1.5 *IQR

上边缘:= Q3 + 1.5 *IQR

可能有人会有这样的疑问:上下边缘都是加减IQR,为什么图中的虚线长度会不一样?

其实下边缘的确定是依据大于Q1-1.5*IQR的最小值,所以除非刚好有值等于Q1-1.5*IQR,否则实际的下边缘是要比Q1-1.5*IQR大的。同理,上边缘就是小于Q3 + 1.5 *IQR的最大值。所以大多数情况下,上下虚线是不等长的。

 

二、箱型图的特征

  1. 直观地观察到异常值,如果数据存在离群点,即位于上下边缘区域之外,以圆点的形式表示
  2. 当箱型图很短时,意味着很多数据多集中分布在很小的范围内
  3. 当箱型图很长时,意味着数据分布比较离散,数据间的差异比较大
  4. 当中位数接近底部时,说明大部分的数据值比较小
  5. 当中位数接近顶部时,说明大部分的数据值比较大
  6. 中位数所处的高低位置能反映数据的偏斜程度
  7. 如果上下虚线比较长,说明上下四分位数之外的数据变化比较大,整体数据的方差和标准偏差也比较大
  8. 箱型图的上下边缘并非最大值或最小值

 

三、箱型图的缺点

  1. 箱型图虽然能显示出数据的分布偏态,但是不能提供关于数据分布偏态和尾重程度的精确度量;
  2. 对于批量较大的数据批,箱线图反映的形状信息更加模糊;
  3. 用中位数代表总体平均水平有一定的局限性。

所以,应用箱线图最好结合其它描述统计工具如均值、标准差、偏度、分布函数等来描述数据批的分布形状。

最后附上下图

 

简单了解箱型图