【转载】深入理解逻辑回归与卡方检验的区别 - Jonee

时间:2024-02-24 09:04:28

Logistic回归分析的结果和卡方检验的结果不一样?

这种情况是正常的,是由于分别使用单因素分析多因素分析造成的。卡方检验相对于Logistic回归而言一次只能考虑一个因素,因此在卡方检验中你的性别、专业是分开做的(单因素分析)。如果在Logistic回归中你也分开做性别、专业(单因素分析),那么结果就会与卡方检验完全一样。 但是,如果你在Logistic回归中同时使用性别、专业等多个因素(多因素分析),那么模型中的各个因素是可以产生相互影响的,有可能产生共线性。如果性别、专业存在共线性的话,那么Logistic逐步回归就会自动放弃其中一个模型影响力较小的因素(即使这个因素在单因素分析中有显著性也会被放弃)以防止共线性的产生。

补充:多重共线性的处理的方法

(一)删除不重要的自变量

自变量之间存在共线性,说明自变量所提供的信息是重叠的,可以删除不重要的自变量减少重复信息。但从模型中删去自变量时应该注意:从实际经济分析确定为相对不重要并从偏相关系数检验证实为共线性原因的那些变量中删除。如果删除不当,会产生模型设定误差,造成参数估计严重有偏的后果。

(二)追加样本信息

多重共线性问题的实质是样本信息的不充分而导致模型参数的不能精确估计,因此追加样本信息是解决该问题的一条有效途径。但是,由于资料收集及调查的困难,要追加样本信息在实践中有时并不容易。

(三)利用非样本先验信息

非样本先验信息主要来自经济理论分析和经验认识。充分利用这些先验的信息,往往有助于解决多重共线性问题。

(四)改变解释变量的形式

改变解释变量的形式是解决多重共线性的一种简易方法,例如对于横截面数据采用相对数变量,对于时间序列数据采用增量型变量。

(五)逐步回归法

逐步回归(Stepwise Regression)是一种常用的消除多重共线性、选取“最优”回归方程的方法。其做法是逐个引入自变量,引入的条件是该自变量经F检验是显著的,每引入一个自变量后,对已选入的变量进行逐个检验,如果原来引入的变量由于后面变量的引入而变得不再显著,那么就将其剔除。引入一个变量或从回归方程中剔除一个变量,为逐步回归的一步,每一步都要进行F检验,以确保每次引入新变量之前回归方程中只包含显著的变量。这个过程反复进行,直到既没有不显著的自变量选入回归方程,也没有显著自变量从回归方程中剔除为止。

 

1、在决定回归分析的模式后,我们应进一步检视自变项间是否有多元共线性(Multicollinearity)的问题,也就是自变项间是否有高度相关的问题。如果自变项间高度相关的话,会影响到对回归系数之假设测定。我们可以用因素分析来检查自变项间是否有多元共线性,或者是逐一将某一自变项(当成为应变项)和所有其它自变项做多元回归分析。

在以SPSS做回归分析时,我们也可在其Statistic之选项中选择Partial Correlation与Collinearity之统计。SPSS所提供之Collinearity的统计包括Tolerance、VIF(Variance Inflation Factor)和Condition Index等。这些统计是有关连性的。如Tolerance与VIF就是互为倒数,如果是Tolerance越小,就表示该自变项与其它自变项间之共线性越高或几乎是其它自变项的线性组合。通常,如果发现VIF>10,那么模型就会被认为存在多元共线性。

2、也可进行主成分分析,看你所选各变量之间的相关性和所含信息的重叠性!

如果你希望知道自己数据中自变量之间的共线性程度,SPSS(以及其它统计软件)的回归分析程序会替你计算并显示与每个自变量相对应的两个参数:Tolerance和VIF (Variance Inflation Factor)。Tolerance = 1 - R2, 其中R2是以该自变量(如X1)为因变量、以其它所有自变量(如X2-X10)为自变量的回归方程的R2值,即反映X1与X2-X10的相关(或共线性)程度。显然,R2越大,Tolerance也就越小。一般认为,Tolerance不应小于0.2,也就是说R2不应大于0.8、其根号R(X1与X2-X10)的相关系数不应大于0.9。 VIF则是Tolerance的倒数。因此,R2越大、即Tolerance越小、而VIF越大(Variance Inflation不就是标准误差被灌了水的意思吗?)。如果Tolerance不能小于0.2,其倒数VIF就不能大于5。