分位数详解+QQ图

时间:2024-03-16 22:49:24

二分位数

中位数

四分位数

把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。

1)第一四分位数(Q1),等于该样本中所有数值由小到大排列后第25%的数字;

2)第二四分位数(Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字;

3)第三四分位数(Q3),等于该样本中所有数值由小到大排列后第75%的数字。

第三四分位数与第一四分位数的差距又称四分位距

百分位数

如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。

累积分布函数与分位数定义

累计分布函数(CDF,Cumulative Distribution Function)

是概率累计的过程。对某一变量X取值为x,则x的累计分布函数是所有小于x值的概率相加,公式如下:
分位数详解+QQ图

分位数(quantile)

概念与累计分布函数类似,也是一种概率累计过程,如第一四分位数是累积分布概率达到0.25时所对应的变量值,第二四分位数是累计分布概率达到0.5时对应的值,第三四分位数是累计分布概率达到0.75时对应的值,公式如下:
α代表累计概率,分位数为Zα:
P(X<=Zα) = α

对一个有着连续分布函数的样本集X,分位数是将一个概率分布切分为有着相同概率的连续区间的切分点。
分位数详解+QQ图
分位数详解+QQ图

分位数意义

表示了在这个样本集中从小至大排列之后小于某值的样本子集占总样本集的比例
可以利用概率分布来为我们确定当数据有序分布后处于某个特殊位置的数值,再利用其为我们达到选择,筛选,修正等目标。
我们可以将它们从小至大进行排列后再观察outliers在总体数据集中的分布位置,而不是使用简单粗暴的设置一个较大的值将大于该值的样本删去或者修改。【排列后看分布会更加的清晰】

四分位数的确定方法——基于 N+1

首先确定四分位数的位置:

Q1的位置= (n+1) × 0.25
Q2的位置= (n+1) × 0.5
Q3的位置= (n+1) × 0.75

【对应于excel中的 QUARTILE.EXC】

实例1

数据总量: 6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36

由小到大排列的结果: 6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49

Q1 的位置=(11+1) × 0.25=3, Q2 的位置=(11+1)× 0.5=6, Q3的位置=(11+1) × 0.75=9

Q1 = 15,Q2 = 40,Q3 = 43

实例2

数据总量: 7, 15, 36, 39, 40, 41

Q1 的位置=(6+1)× 0.25=1.75, Q2 的位置=(6+1) × 0.5=3.5, Q3的位置=(6+1) × 0.75=5.25

Q1 = 7+(15-7)×(1.75-1)= 13,

Q2 = 36+(39-36)×(3.5-3)= 37.5,

Q3 = 40+(41-40)×(5.25-5)= 40.25

*1、将数据从小到大排序,计为数组a(1 to n),n代表数据的长度
2、确定四分位数的位置:b= 1+(n-1) × 0.25= 2.25,
b的整数部分计为c
b的小数部分计为d
Q1=a(c)+[a(c+1)-a(c)] x d
=a(1)+[a(2)-a(1)] 0.25
=15+(36-15)×(2.25-2)=20.25
3、 Q2与Q3的求法类似,四分位差=Q3-Q1

四分位数的确定方法——基于 N-1

Q1的位置=(n-1)x 0.25
Q2的位置=(n-1)x 0.5
Q3的位置=(n-1)x 0.75

对应于excel中的 QUARTILE.INC。

QQ图

qqplot全名应该是正态分位数图,横坐标的做法:
首先把变量按从小到大的顺序排列,计算变量的长度,即总共有多少个取值,再按顺序计算变量的所有取值的累积百分比,所谓的累积百分比,也就是可以看成是累积概率,比如有10个值,按照从小到大的顺序,第一个值的排序是1, 那么他的所占的百分比就是10%, 紧接着后一个值所占的百分比也会是10%,但是累积概率值为20%, 依次往后计算,因为最后一个值的累积百分比是100%,即等于1,这个值如果计算它的正态分布概率的分位数的话,是无限大的,因此需要对这个值进行修正一下,就是因为这一个值无限大,所以对全体计算出来的累积百分比减去一个适当小的数,修正后的累积百分比与原百分比相差不多,但是回避了最后一个值是1而无法计算的问题。
有了累积百分比之后,相对应的就是累积的概率值。将累积概率值修正后,即得到累积概率,比如以10个值为例,第一个值的累积概率为0.05,查正态分布表,0.05的累积概率,对应的正态分布的Z值为-1.64,这样一次计算,所得的Z值,就是qqplot的横坐标数据。

QQ图中正态分布直线的推导

若数据x是正态分布的,那么f(x)是一个正态分布的概率密度函数,根据正态分布的特性,数据x对应的标准正态分布函数的概率密度函数:
y =f((x-m)/std),
其中m为样本均值,std为样本标准差

横坐标的数据分布是标准正态分布,概率密度函数为f(n),由QQ图定义可知两者是一一对应的,因此有:
(x-m)/std = n ;
即:x = n*std + m
所以直线的斜率代表标准差,截距代表均值。

构建普通QQ图

普通QQ图与正态QQ图的不同点在于普通QQ图的横坐标是未知数据集的分位数,可能是均匀分布,可能是泊松分布等等。
正态QQ图的横坐标是标准正态分布的分位数,其他步骤都一样。