????♂️ 个人主页:@艾派森的个人主页
✍????作者简介:Python学习者
???? 希望大家多多支持,我们一起进步!????
如果文章对你有帮助的话,
欢迎评论 ????点赞???????? 收藏 ????加关注+
目录
方差分析概述
引例
对影响农作物产量的各种因素进行定量的对比研究,并在此基础上制定最佳的种植组合方案。影响农作物产量的因素有品种、施肥量、地域特征等。找到众多影响因素中重要的和关键的影响因素非常重要;进一步,在掌握了关键因素,如品种、施肥量等以后,还 需要对不同的品种、不同的施肥量等进行对比分析,研究究竟哪个品种的产量高,施肥量究竟多少最合适,哪个品种与哪种施肥水平搭配最优等。
上述问题的研究就可以通过方差分析实现。在方差分析中,上述问题中的农作物产量称为观测因素(观测变量);品种、施肥量等影响因素称为控制因素(控制变量);将控制变量的不同类别(如 甲品种、乙品种、丙品种;10千克化肥、20千克化肥、30千克化 肥)称为控制变量的不同水平。
方差分析的基本假设前提
- 观测变量各总体应服从正态分布
- 观测变量各总体的方差应相同
基于上述两个基本假设,方差分析对各总体分布是否有显著差异的推断就转化成对各总体均值是否存在显著差异的推断。
方差分析研究的问题
方差分析(Analysis of Variance,ANOVA)是假设检验的一种延续与扩展,主要用来对多个总体均值(三组或三组以上均值)是否相等作出假设检验。
从观测变量的方差分解入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量,对观测变量有显著影响的各个控制变量其不同水平以及各水平的交互搭配是如何影响观测变量的。 它的零假设(原假设)和备择假设分别为:
观测变量值的两类影响因素
观测变量值的变化受两类因素的影响
- 控制因素(控制变量)不同水平所产生的影响
- 随机因素(随机变量)所产生的影响
若观测变量值在某控制变量的各个水平中出现了明显波动,则认为该控制变量是影响观测变量的主要因素;若观测变量值在某控制变量的各个水平中没有出现明显波动,则认为该控制变量没有对观测变量产生重要影响,观测变量的数据波动是由抽样误差造成的。
多因素方差分析原理
多因素方差分析
- 研究两个及两个以上控制变量是否对观测变量产生显著影响
- 不仅能够分析多个因素对观测变量的独立影响,更能够分析多个 控制因素的交互作用能否对观测变量的分布产生显著影响
- SST=SSA+SSB+SSAB+SSE (以两因素方差分析为例)
- 比较观测变量总离差平方和各部分的比例
- 若SSA所占比例较大,则说明控制变量A是引起观测变量变动的主要因素之一,观测变量的变动可 以部分地由控制变量A来解释;反之,不能
- 对SSB和SSAB同理
多因素方差分析的基本步骤
1.提出原假设
原假设H0是:各控制变量不同水平与各交互作用水平下观 测变量各总体的均值无显著差异。即,控制变量和它们的交互作用没有对观测变量产生显著影响。
2.选择检验统计量(F统计量)
在多因素方差分析中,控制变量可以进一步划分为固定效应和随机效应两种类型。
- 固定效应指控制变量的各个水平是可以严格控制的
- 随机效应指控制变量的各个水平无法严格控制
如果方差分析的目的仅局限于对比已有控制变量不同水平对观测变量的影响,不涉及对未观测到水平的影响,则可视其为固 定效应。通常关注的是控制变量A的F检验统计量FA,控制变量B 的F检验统计量FB,A与B的交互作用的F检验统计量FAB
3.计算检验统计量的观测值和概率P值
4.给定显著性水平α,并作出决策
多因素方差分析应用
【案例】 某企业在制定某商品的广告策略时,收集了该商品在不同地区采用不同广告形式促销后的销售额数据,希望对广告形式、地区以及广告形式和地区的交互作用是否对商品销售额产生影响进行分析。
操作步骤:
①选择菜单【分析】----> 【一般线性模型】----> 【单变量】
②指定观测变量到【因变量(D)】框中,指定固定效应的控制变量 到【固定因子(F)】框中
③分析结果
结论:发现Fx1,Fx2,Fx1*x2的概率P值分别为0.000,0.000 和0.286。如果显著性水平α为0.05,由于Fx1,Fx2的概率P值小 于α,所以应该拒绝原假设,可以认为不同广告形式、地区下的 销售额总体均值存在显著差异,各自不同的水平给销售额带来了显著影响。同时,由于Fx1*x2的概率P值大于α,因此不应拒绝原假设,可以认为不同广告形式和地区没有对销售额产生显著的交 互作用,不同地区采用哪种形式的广告都不会对销售额产生显著影响。
④还可以进行多重比较检验。以广告形式这个控制变量为例(地区 控制变量同理),由于不同的广告形式(广告形式的不同水平) 对销售额产生了显著影响,进一步可对各水平间的均值进行比 较。
偏差:表示因子变量每个水平与总水平均值进行对比
⑤分析结果
可以看出:第一种广告形式下销售额的均值与整体均值的差为6.403,t检验统计量的概率P值为0.000(近似为0),所以, 第一种广告形式下销售额的均值与整体均值间存在显著差异,其明显高于整体水平;同理,第二种广告形式下销售额也明显高于总体水平;而第三种广告形式下销售额明显低于整体水平。三种广告形式产生的效果有显著差异。
⑥控制变量交互作用的图形分析
绘图效果:
结论:在地区从水平1分别变至水平18的过程中,各个广告形式下的销售额基本按照相同的规律变动,各直线在各水平基本平行。直观结论是:广告和地区间不存在明显的交互作用,这与前面 的分析结论一致。