上一节介绍了线性回归,虽然线性回归能够满足大部分的数据分析的要求,但是,线性回归并不是对所有的问题都适用, 因为有时候自变量和因变量是通过一个已知或未知的非线性函数关系相联系的,如果通过函数转换,将关系转换成线性关系,可能会造成数据失真或更为复杂的计算,导致结果出现偏差
回归分析中,变量转换的方法,如下所示:
举例说明一下公式的转换过程:幂函数: 我们将两边取对手 (以自然数e 为底的对数)得到
Y'=Iny x'=Inx 将Y'和X‘分别代入方程得到:Y'=In=Ina + In= Ina + βInx = Ina + βX' 此公式分解是请参考:对数的运算性质
此时,我们一般会采用“曲线评估”来寻找一个简单而又适合的模型。
今天还是以教学案例数据为例:广告支付和销售量之间的关系,数据如下所示:
点击“分析”—回归——曲线评估,进入如下所示的界面:
将“销售量”作为因变量,“广告费用”作为自变量分别拖入“因变量”和“自变量”框内,选择“线性”和“二次项”两个模型,同时勾选“包含常量”和“模型绘图”两个选项
接着,点击“保存”按钮,进入如下界面:
点击继续,返回原来界面,再点击”确定“按钮,得到如下分析结果:
结果分析:
1:在“模型描述”中可以看出:
因变量为“销售量”,自变量为:广告费用,并且具备两个方程:方程1为线性方程,方程2为:二次曲线方程
包含:常数项等信息
2:从“个案处理摘要”可以看出,排除的个案为0,说明变量中所有的个案都不带有“缺失值”,个案总数为24个
3:从“模型汇总和参数归集值”表中,可以看出:
“二次曲线模型的拟合度”高于“线性模型拟合度”(0.908 > 0.839),F统计量的显著值都等于0.00,远远小于0.01,说明两个模型都显著,并且都具备常数项,分别为:6.584和3.903, 参数估计值:线性具备一个参数估计值,而二次曲线具备两个参数估计值,一个为正,一个为负
线性方程为:销售量 = 6.584 + 1.071* 广告费用
二次曲线方程为: 销售量 = 3.903 + 2.854 * 广告费用 — 0.245 * 广告费用²
我们可以看出,随着广告费用的增加,销售量也会逐渐增加,根据二次曲线模型得出,当广告费用增加到一定数额时候,销售量不会随着增加,相比之下,会呈现下降趋势 (这个就是为什么会出现两个参数估计值为一正,一负的情况了)
那么,我们如何计算:投入与产出最大化呢?即指:当广告费用投放达到多少时,销售量将不会再增加,即指:转折点
转折点 = 2.854/2*0.245 = 5.824
我们来分析一下,这个转折点的推理过程! 其实转折点,就是所谓的极限,简单来说,可以理解为求导数
1:y=β0 + β1x + β2x² 对y进行求导运算得出: y'=β1+2β2x :
2:因为随着广告费用的增加,销售量也会随着改变,所以求增量: Δy=( β1 + 2β2x) Δx
3:求比值:Δy/Δx=β1 + 2β2x
4:求极限:β1 + 2β2x =0 得出 x =| -β1/2β2 | (这里取绝对值)= 2.854/2*0.245 = 5.824
4:从“销售量”的图表中可以看出:二次曲线更好的反应了,随着广告费用的增加,销售量的变化情况,而线性模型,却一直呈现增加的趋势