《谁说菜鸟不会数据分析》之回归分析

时间:2024-04-01 16:14:23

回归,最初是遗传学中的一个名词,是由英国生物学家兼统计学家Galton首先提出。他在研究人类身高时发现高个子回归于人口的平均身高,矮个子从另一个方向回归于人类平均身高。

回归分析

是研究自变量与因变量之间数量变化关系的一种方法。主要是通过建立因变量Y与自变量X之间的回归模型,衡量X对Y的影响能力,进而来预测Y的发展趋势。

相关分析与回归分析的联系:均是研究两个或两个以上变量之间关系的方法。实际工作中,回归分析是建立在相关分析的基础上的,两个变量之间具有相关性,才可以继续进行回归分析。
相关分析与回归分析的区别
* 相关分析研究的是随机变量,并不分因变量和自变量;回归分析研究的变量要定义出自变量和因变量,并且自变量是确定的普通变量,因变量是随机变量。
* 相关分析主要是描述两个变量之间相关关系分密切程度,回归分析不仅可以揭示X对Y的影响程度,还可以根据回归模型进行预测。


分类

线性回归

  • 简单线性回归
    《谁说菜鸟不会数据分析》之回归分析
  • 多重线性回归
    《谁说菜鸟不会数据分析》之回归分析

注:多重线性回归(Multiple Linear Regression)是包含两个或两个以上自变量的线性回归模型;
多元线性回归(Multivariate Linear Regression)是指两个或两个以上因变量的线性回归模型。

非线性回归

  • Logistic回归

线性回归

线性回归分析步骤

根据预测目标,确定自变量和因变量

确定分析目标与思路,选择自变量与因变量

绘制散点图,确定回归模型类型

通过绘制散点图的方式,初步判断变量之间是否具有线性相关关系,同时计算相关系数,进而判断自变量与因变量之间的相关程度和方向,从而确定回归模型类型。

估计模型参数,建立回归模型

采用最小二乘法进行模型参数的评估,建立回归模型

对回归模型进行验证

通过对整个模型及各个参数的统计显著性检验,逐步优化和最终确立回归模型。

利用回归模型进行预测

应用到新的数据中,进行数据预测。

SPSS线性回归分析结果解读

SPSS软件回归分析完毕后会输出4个结果表。下面依次对其进行解释。

线性回归模型输入/除去变量表

《谁说菜鸟不会数据分析》之回归分析
这一个表显示的是回归模型的自变量和因变量。
除去变量是指那些没有显著统计学意义的自变量。
方法共有以下5种:

输入:强制将所选择的自变量纳入至回归模型(默认)
步进:将自变量诸葛引入模型并进行统计显著性检验,直至再也没有不显著的自变量从回归模型中提出为止
除去:根据设定条件,直接剔除一部分自变量
后退:根据设定条件,每次提出一个自变量直至不能剔除
前进:根据设定条件,每次纳入一个自变量直至无法继续纳入

多重线性回归中,建议采用【步进】方法,也称为逐步回归法,是【后退】和【前进】两种方法的结合。逐步回归会根据每个自变量对模型的贡献对因变量进行一次筛选,逐步剔除那些没有显著统计学意义的自变量,直至再也没有不显著的自变量从回归模型中剔除。这是一个模型自动优化的过程。

线性回归模型汇总表

《谁说菜鸟不会数据分析》之回归分析
R为相关系数r,表示变量之间相关关系的程度和方向。

R方为R的平方,叫判定系数,也称拟合优度或决定系数,用于表示拟合得到的模型能够解释因变量变化的百分比。R方越接近1,表示回归模型拟合效果越好。
若R方等于0.732则代表该回归模型中自变量能够解释模型变化的73.2%。

简单线性回归模型主要采用R方来衡量模型的拟合效果;调整后的R方多用于多重线性回归模型,用于修正因自变量个数的增加而导致模型拟合效果过高的情况,用于衡量多重线性回归模型建立过程中加入其它自变量后模型拟合优度的变化。

最后1列是标准估算的误差,大小反映了建立模型预测因变量时的精度,值越小,说明拟合效果越好。在对比多个回归模型时通常会比较这一指标。

线性回归方差分析表

《谁说菜鸟不会数据分析》之回归分析
方差分析表的主要作用是通过F检验来判断回归模型的回归效果,即检验因变量与所有自变量之间的线性关系是否显著,是否可以用线性模型来描述他们之间的关系。

这一表中,我们主要关注F统计量和显著性(P值)。但因为计算出F值还需要查找统计表(F分布临界值表),并与之进行比较才能得出结果,所以我们直接用显著性P值与显著性水平α(0.01、0.05)进行比较。
《谁说菜鸟不会数据分析》之回归分析

线性回归模型回归系数表

《谁说菜鸟不会数据分析》之回归分析
该表主要用于回归模型的描述和回归系数的显著性检验(t检验)。

第二列为回归模型方程的回归系数,用该系数构建回归方程。

标准化系数是用来测量自变量对因变量的重要性。这一例子中客流量对于销售量的贡献更大一些。
最后一列表示的是不同自变量的显著性,广告费用具有显著性的统计学意义,客流量具有极其显著的统计学意义,即总体至少具有显著的线性关系。

预测

在数据视图中添加要预测的自变量值,【线性回归】对话框-【保存】-勾选【预测值】中的【未标准化】复选框。计算完之后数据视图内就会多一列名为“PRE_1”的预测值变量。

自动线性建模

SPSS可根据数据自动建立回归模型,这一方法是一般线性模型的改进,可以帮助用户较少的输入数据而建立线性模型。
【分析】-【回归】-【自动线性建模】
特点:
1.连续变量、分类变量均可作为自变量参与自动建模
2.可根据数据的特征自动选择对因变量重要性最大的自变量,舍弃不重要或者重要性很小的变量
3.可自动进行离群值和缺失值的处理,并输出一系列图表来展示回归模型的效果即相关信息

【目标】项目
《谁说菜鸟不会数据分析》之回归分析
创建标准模型:创建一个使用自变量预测目标的传统模型,一般来说标准模型容易理解而且预测评分速度更快
增强模型准确度:使用Boosting构建整体模型,可生成一个模型序列来获得更多精确的预测值
增强模型稳定性:使用Bagging构建整体模型,可生成多个模型来获得更多可靠的预测值
为大型数据集创建模型,通过将数据集差分成单独的数据块来构建整体模型的方法,主要用于大型数据集,且需要与IBM SPSSS Statistic Server连接。
后三者比标准模型需要更长的时间来构建模型和预测评分。

模型构建方法

1.包括所有预测变量,即在模型构建过程中考虑所有变量,不做自变量的筛选
2.向前步进,即将自变量逐个引入模型并进行统计显著性检验,直到再也没有不显著的自变量从回归模型中剔除为止。
3.最佳子集,用统计学中的变量选择模型算法进行自动筛选最佳变量,计算步骤要比向前步进更多,因为选择过程考虑了所有变量组合,变量超过10个以上,需要时间长

一般建立模型后,需要从统计学方法论的角度来评判模型建立的效果,如果有多组变量组合就可能建立多组模型,那么确定模型效果好坏的标准就用信息条件,也称信息准则。
SPSS常见的信息准则有:
* AIC(赤池信息量准则)
* BIC(贝叶斯信息量准则)

其中有AICC准则是为了适应小样本数据,在AIC准则公式的基础上进行调整修正,适合任何样本量,而AIC准则适用于大样本数据,所以AICC准则更为通用。
信息准则的数值越小表示模型越好。

线性回归分析中自变量与因变量的数据类型均是连续变量,可通过自变量与因变量之间的线性关系来构建回归方程。但是对于因变量为分类变量来说,线性回归分析就不再适用。

Logistic回归分析

当自变量为连续变量,因变量为分类变量,两者不存在线性关系无法进行线性分析时,需要对因变量进行对数变换,将非线性问题转换为线性问题,从而利用线性回归相关理论和方法来解决非线性问题。
Logistic回归是针对因变量为分类变量而进行回归分析的一种统计方法,属于概率型非线性回归。

分类变量分类

1.二分类,即变量只有两种分类情况,例如是和否、发生与未发生。因此对应的因变量仅有0和1两个分类值。
2.多分类,即变量具有多个类别的分类,例如高、中、低

当因变量为二分类时,对应的Logistic为二元Logistic分析;当因变量为多分类是,对应的Logistic分析为多元Logistic分析。

在模型预测中,因变零计算值并不是得到0和1,而是以发生的大小来衡量。概率大于等于0.5,小于等于1,则因变零对应的分类值为1,即是或发生,反之相反。
《谁说菜鸟不会数据分析》之回归分析

Logistic回归方程式
《谁说菜鸟不会数据分析》之回归分析

Logistic回归分析与线性回归分析区别

线性回归 Logistic回归
因变量是连续变量 因变量是分类变量
自变量与因变量呈线性关系 自变量与因变量呈非线性关系
因变量呈正态分布 因变量呈0/1分布
预测结果是连续性数值 预测结果是介于0和1之间的概率值

Logistic回归预测

将模型保存为xml格式,然后在【实用程序】-【评分向导】中进行模型预测值的计算。

《谁说菜鸟不会数据分析》之回归分析