简单线性回归
回归分析:利用统计学方法来建立一个表示变量间相互关系的方程。
被预测的变量称为因变量,用来预测的是自变量。
14.1 简单线性回归模型
ε是一个随机变量,称为模型的误差项,包含在y中,但是不能被x和y之间的线性关系解释的变异性。
估计的回归方程,用样本统计量b0和b1来作为总体参数β0和β1的估计量。
利用最小二乘法计算b0和b1。
14.2 最小二乘法
最小二乘法利用样本数据,通过使因变量的观测值与因变量的预测值之间的离差平方和达到最小从而求出b0和b1。
14.3 判定系数
判定系数为估计的回归方程提供了一个拟合优度的度量,值介于0到1
SST = SSE + SSR
判定系数理解为总平方和中能被估计的回归方程解释的百分比。
相关系数
两个变量x和y之间线性关系强度的描述性度量。
相关系数介于-1~1,-1表示x和y完全负相关,全部数据点落到一条斜率为负的直线上,+1表示完全正相关,全部数据落到一条斜率为正的直线上。
样本相关系数的适用范围限制在两变量间存在线性关系的情况,判定系数对非线性关系以及有两个或两个以上自变量的相关关系都适用。
14.4 模型的假定
尽管判定系数很大,也不能直接用回归方程,还要对变量之间关系的显著性进行检验。
回归模型中误差项ε的假定:一是该误差项是一个期望值为0的随机变量,即E(ε)=0,二是对所有的x值,ε的方差都是相同的,三是ε的值是相互独立的,四是对所有的x值,ε是一个正态分布的随机变量。
14.5 显著性检验
为了检验两变量之间是否存在一个显著的回归关系,进行一个假设检验,判定β1的值是否等于0,这需要知道误差项ε的方差的估计值。
误差项ε的方差的估计:ε的方差也是因变量y的值关于回归直线的方差。y的值关于估计的回归直线的离差称为残差,残差平方和SSE是实际观测值关于估计的回归直线变异性的度量。用SSE除*度得到均方误差MSE,这就是误差项方差的一个估计量。
因为有两个参数b0和b1,所以n-2。
估计的标准误差s等于估计的方差开方。
如果x和y之间存在线性关系,那么β1不等于0,利用样本数据进行检验,原假设为β1=0。
样本统计量b1是随机变量,有自己的抽样分布。
因为标准差未知,故用估计标准差来估计,这里的估计标准差就是上面的s,即误差项的估计标准差。
β1的置信区间是
如果这个区间内包含β1的假设值,则表示不能拒绝原假设。
也可以利用F检验对回归方程进行显著性检验。
当仅有一个自变量时,F检验的结果和t检验一样,但如果有两个或以上的自变量,F检验仅能用于检验回归方程总体的显著性。
F检验的基本原理是基于方差的两个独立的估计量。
此处是只有一个自变量时的F检验。
MSR = SSR/自变量的个数,MSE上面有。检验统计量的分子*度为1,分母*度为n-2。
如果有m个自变量,那么检验统计量的分子*度为m,分母*度为n-m-1。
简单线性回归的ANOVA表
拒绝了β1=0的原假设,得出变量x和y之间存在显著性关系的结论,但不意味着得出变量x和y之间存在因果关系的结论。
仅能在样本观测值范围内得出x和y相关的结论。
14.6 用估计的回归方程进行估计和预测
对于x的一个特定值,y^可以被用作y的平均值或期望值E(y)的一个点估计,或者y^也可以被用作y的一个个别值的预测值。
区间估计
置信区间是对于x的一个给定值,y的平均值的区间估计。需要计算出y估计期望值的标准差。
置信区间
给定的x值偏离x平均值越远,置信区间越宽。
预测区间是对于x的一个给定值,对应y的一个新的观测值,也即对y的一个个别值进行预测的区间估计。先要计算出预测值的方差。
两个区间估计是不同的,预测区间的边际误差会比较大。
14.8 残差分析:证实模型假定
第i次观测的残差
关于x的残差图
横坐标是自变量x,纵坐标是观测值减预测值。
关于y^的残差图
横坐标是预测值y^,纵坐标是观测值减预测值。
标准化残差
每个残差除以它的标准差,就得到了标准化残差
hi是杠杆率
标准化残差图能对随机误差项ε服从正态分布的假定提供一种直观的认识,标准化残差应该分布在-2~2之间。
确定误差项ε服从正态分布的假定成立的另一个方法是正态概率图。
正态分数的概念:从标准正态分布中随机取10个数,反复进行这个过程,将10个数按顺序排好,每个值都是随机变量。最小那个称为一阶顺序统计量,它的期望值是-1.55,这个期望值被称为正态分数。
如果有一个由n个观测值组成的数据集,正态分数为x轴,标准化残差为y轴。将n个正态分数和n个标准化残差作图,如果ε服从正态分布,那么这些点应该密集地围绕在y=x这条直线上。这张图叫做正态概率图。
14.9 残差分析:异常值的有影响的观测值
检测异常值,一般通过散点图就可以。也可以通过标准化残差来判断,一般绝对值很大的是异常值。
有影响的观测值可能是一个异常值(y值与趋势有相当大的偏离),可能是远离自变量x平均值的观测值,或者是两者的结合。
自变量是极端值的观测值被称为高杠杆率点。
对于简单线性回归,如果hi大于6/n和0.99两者间的较小值(n是样本容量),则视为高杠杆率点。
多元回归,有两个以上自变量。
15.1 多元回归模型
回归模型
回归方程
估计的多元回归方程
15.2 最小二乘法,利用样本数据,通过使残差的平方和达到最小,求得各系数的值。
简单线性回归中,将b1看作当自变量变化一个单位时,因变量y变化程度的一个估计。
多元回归分析中,有多个回归系数,当所有其他自变量都保持不变时,bj可以解释为自变量xj变化一个单位时,因变量变化程度的一个估计。
15.3 多元判定系数
总的平方和能分解为回归平方和和误差平方和。
多元判定系数,因变量y中的变异性能被估计的多元回归方程解释的比例。
增加自变量会影响到因变量中的变异性被估计的回归方程解释的百分比。
15.4 模型的假定
多元回归模型中误差项ε的假定:一是ε是一个平均值或期望值为0的随机变量,二是对于自变量所有的值,ε的方差都是相同的,三是ε的值是相互独立的,四是ε是一个服从正态分布的随机变量,它表示了观测值和预测值之间的离差。
15.5 显著性检验
F检验用于确定因变量和所有自变量之间存在显著性关系,称为总体显著性检验。
得到总体显著的结论后再进行t检验,检验单一自变量是否显著。
多重共线性:自变量之间的相关性。
15.6 应用估计的回归方程进行估计和预测
估计y的平均值和预测y的一个个别值的步骤,与包含一个自变量的回归分析所进行的那些步骤类似。
15.7 分类自变量
如果一个分类变量有k个水平,需要定义k-1个虚拟变量,每个虚拟变量取值0或1。
15.8 残差分析
通过标准化残差图和正态概率图来判断误差项是否服从正态分布。
如果一个观测值的标准化残差在-2~2区间外,则视为异常值。
残差的标准差和标准化残差的计算方法和简单线性回归相同。
一般如果数据集中有一个或以上的异常值,会导致估计的标准误差增加,从而使第i次观测的残差的标准差变大,进而使第i次观测的标准化残差减小。即使有一个较大的残差,但是计算标准化残差使用的分母比较大,两者抵消,无法识别出这个异常值。解决办法是用一种学生化删除残差的标准化残差。
从数据集中删除第i次观测值,利用其余的n-1次观测值建立一个新的估计的回归方程。s(i)表示从数据中删除第i次数据计算出来的误差项的估计的标准误差,这样计算出来的标准化残差称为学生化删除残差。如果第i次观测值是一个异常值,那么s(i)将小于s,用s(i)计算出来的标准化残差的绝对值比s计算出来的大。
利用t分布来确定学生化删除残差是否存在异常值。p表示自变量个数,n表示观测值个数,误差平方和的*度是n-1-p-1,结合显著性水平找到对应的拒绝域。
经验法则,如果杠杆值hi大于3(p+1),则认为是有影响的观测值。
高杠杆率不一定是有影响的观测值,另一种方法是库克距离测度。
经验准则,如果库克距离大于1,表示第i次观测值是一个有影响的观测值。
15.9 logistic回归
逻辑回归最长用于处理二分类问题,即因变量是分类变量,且只有两个分类。当然也能处理多分类问题,即多分类逻辑回归。
简单解释就是提供一条数据,经过逻辑回归分析后可以将这条数据分到两个分类的其中一个中。举个例子,可以用逻辑分析来判断一个用户是否会点击一个广告(会和不会两种可能)
logistic回归方程
假定模型中只有一个自变量,参数β0=-7,参数β1=3,这个逻辑回归方程为
图形是一条s曲线
估计的逻辑回归方程
举个例子,管理人员认为顾客的年消费额和是否拥有该商店的信用卡这两个因素会影响顾客是否使用优惠券,这个问题可以通过逻辑回归进行分析。
因变量是顾客是否使用优惠券,自变量x1是顾客的年消费额,自变量x2是顾客是否拥有商店的信用卡。
将样本数据导入分析软件中可以得到估计的回归方程。
此后,导入顾客的年消费额和是否拥有信用卡的信息,可以得到顾客使用优惠券的概率。
如顾客的年消费额是2000,没有信用卡,那么将x1=2,x2=0代入方程中,解得y^=0.1882,表示对该条件的顾客,使用优惠券的概率为0.1882。
显著性检验:总体的显著性检验是通过卡方检验统计量的值检验的,原假设是所有系数等于0,拒绝原假设即表名总体是显著的。再用卡方检验对单个自变量进行检验,看它是否对总体显著,原假设是检验自变量的系数为零。
有利于一个事件发生的机会比被定义为事件将要发生的概率与该事件将不会发生的概率的比。
逻辑回归中,我们将感兴趣的事件设定为y=1,在自变量的一组特定值已知时,有利于事件y=1发生的机会比能按下式计算
通俗解释就是事件会发生的概率比事件不会发生的概率。
机会比率度量一组自变量中只有一个自变量增加了一个单位时对机会比的影响。
举个例子,消费额都是2000时,求有无信用卡的机会比率
表示消费额都是2000的情况下,有信用卡的用户使用优惠券的可能性比没有信用卡的用户高三倍。
计算出去年消费3000美元的顾客使用优惠券的概率是消费2000美元的顾客的1.4073倍,那么消费5000美元的顾客使用优惠券的概率比消费4000美元的顾客得到结果也是1.4073倍。
机会比率可以用公式机会比率 = e^βi 计算出来。
回归分析:建立模型
16.1 一般线性模型
假设原始数据由应变量和两个自变量x1和x2组成,两个变量间若有共同作用,可以增加一个变量x1x2,称为交互作用。
如果标准化残差图看上去像个抛物线,暗示需要一个曲线关系。
如果标准化残差图呈楔形,说明存在非常数方差,,修正方法是对应变量进行转换,如对数转换或者倒数。
参数的幂次超过一次的模型称为非线性模型。E(y)=β0β1^x
通过取对数可以转化为线性模型。
16.2 确定什么时候增加或删除变量
建立模型时从一个变量开始,得到一个自变量模型的误差平方和,再建立两个自变量的模型,得到第二个误差平方和,检验增加变量后是否导致了SSE显著减小。(通过F检验)
检验统计量的分子=(SSE(增加变量前)-SSE(增加变量后))/增加的变量个数
分母=SSE(增加变量后)/样本容量-自变量个数-1
分子*度是增加到模型中的自变量个数,分母*度为样本容量-自变量个数-1。
想检验仅增加一个变量是否显著,也可以通过t检验,检验增加的变量是否显著。
16.3 大型问题的分析
大型问题中可能会包含很多自变量,如果任意两个自变量相关系数大于0.7,表示多重共线性可能会对估计结果产生影响,最好不要同时出现。
假设有八个自变量,可以通过计算软件尝试含1~8个自变量的模型,从中挑选模拟效果最好的。
16.4 变量选择方法
四种:逐步回归,向前选择,后向消元和最佳子集回归。
逐步回归:开始时建立一个包含所有自变量的模型,然后对每一个自变量计算F统计量和p值,p值大于显著性水平且最大的先删掉,重复此步骤直到没有变量可以删除。然后对不在模型中的自变量计算F统计量和对应的p值,p值小于显著性水平且最小的可以加入到模型中,重复此步骤直到没有变量可以添加。重复上面俩步骤直到没有变量可以添加或删除。
前向选择:从没有变量开始,与逐步回归中确定一个变量进入模型的方法相同,一次加一个变量,自变量加入模型后就不能删除,当不在模型中的自变量的p值都大于显著性水平时,选择结束。
后向消元:从包含所有自变量的模型开始,一次删除一个自变量,删除方法和逐步回归相同,删除之后就不能加回去了。
最佳子集回归:给出1到n个自变量的模型
16.5 实验设计的多元回归方法
现在有三种生产方法,每种方法随机抽取五名工人生产,得到数据如下
根据样本数据,使用回归方法判断三个样本均值的差异是否足以断定三种装配方法的总体均值不同。
首先定义虚拟变量,表明是哪种装配方法。比如这个案例中,有三种装配方法,那么需要定义3-1=2个虚拟变量。
每周生产的过滤系统数量y与工人使用的装配方法联系起来。
E(y) = β0 + β1*A + β2*B
检验三种方法均值差异的原假设为β1=β2=0,通过F检验统计量进行判断。
得到的结果是拒绝原假设,即三种装配方法的总体均值不全相等,还可以得出总体是显著的结论,再进行t检验,确定个别参数的显著性。
16.6 自相关性和杜宾-瓦特森检验
数据的自相关性:用y1表示y在某个时期采集的数据,而y1的值又要依赖于y在这个时期之前的值。
如果数据存在自相关性,则会违背误差项是独立的这一假定,所以要检测一下是否存在自相关性。
原假设是不存在自相关性
d的取值范围介于0到4。
ei表示第i个残差。
dL和dU通过样本容量和自变量个数查表获得。
时间序列分析及预测,自变量是时间的回归分析应用。
17.1 时间序列模式
水平模式,数据围绕一个均值上下波动。
趋势模式,数据虽然是随机起伏,但总体趋势是向更高或更低移动。
季节模式,由于季节的影响,时间序列呈现重复模式,比如御寒衣物的销量。
趋势与季节模式,同时包含趋势和季节两种模式。
17.2 预测精度
预测误差 = 实际值 - 预测值
平均绝对误差MAE = 预测误差绝对值的总和/预测误差的个数
均方误差MSE = 预测误差平方的综合/预测误差的个数
平均绝对百分数误差 = 预测误差绝对值除实际值乘100%的总和/预测值误差个数
如果时间序列基本是平稳的,历史数据的平均值会是比较好的预测值。
17.3 移动平均法和指数平滑法
移动平均法:用最近k期的数据的平均值作为下一期的预测值。
若认为最近的值是相关的,则取较小的k值。
较小的k值能更快地追踪时间序列的移动,较大的k值可以有效消除随机波动。
加权移动平均:移动平均法中每个数据的权重相同,加权移动平均会给不同的数据赋予不同的权重。
如果时间序列包含较多的随机波动,则选较小的平滑常数,因为不希望预测做出过快的反应。如果数据平稳则可以选较大的平滑常数。,可以对预测值进行迅速调整。
17.4 趋势推测法
线性趋势回归,预测具有线性趋势的时间序列。
若数据创建的散点图显示是非线性,可以尝试二次趋势方程或指数趋势方程等其他非线性方程。
二次趋势方程
指数趋势方程