【线性回归】线性回归模型中几个参数的解释
R方
- 决定系数/拟合优度
类似于一元线性回归,构造决定系数。称为y关于自变量的样本复相关系数。
其中,,有SST=SSR+SSE
总离差平方和记为SST,回归平方和记为SSR,残差平方和为SSE。
由公式可见,SSR是由回归方程确定的,即是可以用自变量x进行解释的波动,而SSE为x之外的未加控制的因素引起的波动。这样,总离差平方和SST中能够由方程解释的部分为SSR,不能解释的部分为SSE。
- 意义
意味着回归方程中能被解释的误差占总误差的比例。一般来说越大,拟合效果越好,一般认为超过0.8的模型拟合优度比较高。
需要注意的是当样本量小时,很大(例如0.9)也不能肯定自变量与因变量之间关系就是线性的。
随着自变量的增多,必定会越来越接近于1,但这会导致模型的稳定性变差,即模型用来预测训练集之外的数据时,预测波动将会非常大,这个时候就会对作调整,调整R方可以消除自变量增加造成的假象。
F检验
0、预备知识
(1)假设检验
为了判断与检测X是否具备对Y的预测能力,一般可以通过相关系数、图形等方法进行衡量,但这只是直观的判断方法。通过对回归参数做假设检验可以为我们提供更严格的数量化分析方法。
(2)全模型与简化模型
我们称之为全模型(full Model,FM)
通过对某些回归系数进行假设,使其取指定的值,把这些指定的值带入全模型中,得到的模型称为简化模型(reduced model,RM)。常用的简化方法将在之后介绍。
1、F检验
检验是线性模型的假设检验中最常用的一种检验,通过值的大小可以判断提出的假设是否合理,即是否接受简化模型。
- 为检验我们的假设是否合理,即评估简化模型相对全模型拟合效果是否一样好,需要先建立对两个模型拟合效果的评价方法。这里我们通过计算模型的残差平方和()来衡量模型拟合数据时损失的信息量,也表示模型的拟合效果。
- 需要注意到增加模型中待估参数的个数,模型拟合的残差平方和()一定不会减小,所以。即为简化模型相对于全模型残差平方和的增加量,即简化模型相对全模型拟合数据时多损失的信息量。我们用"多损失的信息量"/"原损失的信息量"作为检验的统计量,得到。
- 为了修正参数个数不同带来的影响,让分子分母分别除以各自的*度。假设全模型中有个待估参数,简化模型中有个待估参数,那么:的*度为,的*度为,所以的*度为。那么(2)中的值就变为了:
其中:
(0) 统计量服从*度为和的分布
(1) ,为全模型的残差平方和,用来衡量全模型拟合数据时损失的信息,;
(2) ,为简化模型的残差平方和,用来衡量简化模型拟合数据时损失的信息;
(3) 、分别为全模型和简化模型给出的的预测值;
(4) 与分别为分子分母的*度。
2、假设检验的判别条件
或,则在显著性水平下拒绝简化模型,具体细节参见置信区间。
3、最常研究的4种假设
(1)所有预测变量的回归系数均为0;
(2)某些回归系数为0;
(3)某些回归系数相等;
(4)回归系数满足某些特定的约束。
T检验
- 概念
t值是对单个变量显著性的检验,t值的绝对值大于临界值说明该变量是显著的,要注意的是t检验是对总体当中变量是否是真正影响因变量的一个变量的检验,即检验总体中该变量的参数是否为零,只不过总体中变量的参数永远未知,只能用其无偏估量(参数的样本估计量)来代替进行检验。
计算公式:
t统计量:
*度:v=n - 1
适用条件:
(1) 已知一个总体均数;
(2) 可得到一个样本均数及该样本标准误;
(3) 样本来自正态或近似正态总体。
- T检验的步骤
1)、建立虚无假设H0:μ1 = μ2,即先假定两个总体平均数之间没有显著差异;
2)、计算统计量t值,对于不同类型的问题选用不同的统计量计算方法;
a:如果要评断一个总体中的小样本平均数与总体平均值之间的差异程度,其统计量t值的计算公式为:
b:如果要评断两组样本平均数之间的差异程度,其统计量t值的计算公式为:
3)、根据*度df=n-1,查t值表,找出规定的t理论值并进行比较。理论值差异的显著水平为0.01级或0.05级。不同*度的显著水平理论值记为t(df)0.01和t(df)0.05
4)、比较计算得到的t值和理论t值,推断发生的概率,依据下表给出的t值与差异显著性关系表作出判断。
T值与差异显著性关系表 | ||
t | P值 | 差异显著程度 |
差异非常显著 | ||
差异显著 | ||
t < t(df)0.05 | P > 0.05 | 差异不显著 |
3、t检验应用条件:
1)当样本例数较少时,要求样本取自正态分布
2)做两样本均数比较时,还要求两样本总体发差相等。
4、若方差不等,可采用近似t检验
如果两总体方差的差别有统计意义,即方差不等,两小样本均数的比较,可以选择如下方法:
- 进行变量变换,如果变换后数据满足t检验条件,再进行t检验;
- 采用非参数检验法(wilcoxon秩和检验)
- 近似t检验法(又称校正t检验或检验),常用Cochran-Cox近似t检验、Satterthwaite法、AspinWelch法等。
P值
- 概念
P值是一个概率:一个假设为真时,已有的样本观测结果出现的概率,即"假设为真"事件真实发生的概率。
如果出现了很小的P值,根据小概率原理(小概率事件不可能发生,一旦发生就不是小概率事件),就证明该事件不会发生(假设不为真),P值越小,"假设不为真"的概率(1-P)就越大,"假设不为真"事件就越显著。
举例:假设:变量X1的系数a=0;根据已有的样本观测,计算a=0的概率,这个概率就是P值。如果P值=0.05,就称系数a有5%的可能性等于0。
置信度
1、置信度及其选取原则
置信限,也叫置信度(置信水平Confidence level)。一定概率下真值的取值范围(可靠范围)称为置信区间。其概率称为置信概率或置信度(置信水平),简单的说就是:以测量值为中心,在一定范围内,真值出现在该范围内的几率。置信区间:在某一置信度下,以测量值为中心,真值出现的范围。
置信度的选取要符合小概率原理和满足生产实际需要,同时首先要考虑控制犯拒真错误的概率,其次再设法使犯存伪错误的概率达到最小。
我们知道, 在实际中概率很小的随机事件在个别试验中几乎是不可能发生的。因此,我们常常忽略了那些概率很小的事件发生的可能性,这个原理就叫做小概率事件的实际不可能性原理(简称小概率原理)。该原理与我们的常识经验相符合。至于什么样的概率算是小概率, 对于这个数值要做一个具体的规定。一般作分析数据处理时,我们常取显著性水平(α)5% 作为小概率事件。
显著性水平(α)与置信度(又称置信水平,β)的关系为α=1-β。而置信度的选取则必须根据小概率原理和实际需要来综合考虑,即置信度的高低应定得适当。统计学中通常取95%置信度,处理分析数据时,通常也取95%置信度。当然根据具体情况, 有时也可作适当调整,但这种调整应以满足实际需要为前提条件。
如果选取的置信度太小,判断失误的可能性就较大,且因舍弃误差小的数据过多,易犯"拒真"的错误;如选取的置信度太大,判断失误的机会小了,但往往实用意义不大,且因保留大误差的数据过多,易犯"存伪"的错误。
在置信度的选取所带来的两类错误中,首先要考虑控制犯"拒真"错误的概率,其次再设法使犯"存伪"错误的概率达到最小。
2、置信区间与模型预测
在数理统计学中属于区间估计问题。所谓区间估计是研究用未知参数的点估计值(从一组样本观测值算得的)作为近似值的精确程度和误差范围,是一个必须回答的重要问题。
经常听到这样的说法,"如果给定解释变量值,根据模型就可以得到被解释变量的预测值为……值"。这种说法是不科学的,也是计量经济学模型无法达到的。如果一定要给出一个具体的预测值,那么它的置信水平则为0;如果一定要回答解释变量以100%的置信水平处在什么区间中,那么这个区间是∞。
在实际应用中,我们当然也希望置信水平越高越好,置信区间越小越好,以增加预测的实用意义。如何才能缩小置信区间?
(1)增大样本容量n。在同样的置信水平下,n越大,从t分布表中查得*度为(n-k-1)的临界值越小;同时,增大样本容量,在一般情况下可使减小,因为式中分母的增大是肯定的,分子并不一定增大。
(2)更主要的是提高模型的拟合优度,以减小残差平方和。设想一种极端情况,如果模型完全拟合样本观测值,残差平方和为0,则置信区间长度也为0,预测区间就是一点。
(3)提高样本观测值的分散度。在一般情况下,样本观测值越分散,作为分母的的值越大,致使区间缩小。置信水平与置信区间是矛盾的。置信水平越高,在其他情况不变时,临界值越大,置信区间越大。如果要求缩小置信区间,在其他情况不变时,就必须降低对置信水平的要求。