方差分析（ANOVA）(转）

时间：2024-02-20 18:13:26

转自：http://blog.sciencenet.cn/blog-116082-218338.html

方差分析（analysis of variance，ANOVA），即变量分析，是对多个样本平均数差异显著性检验的方法。

　　在一个多处理试验中，可以得到一系列不同的观测值。造成观测值不同的原因是多方面的，有的是不同的处理引起的，即处理效应；有的是试验过程中偶然性因素的干扰和测量误差造成的，即误差效应。方差分析的基本思想就是将测量数据的总变异按变异原因不同分解为处理效应和试验误差，并作出其数量估计。要正确认识观测值的变异是由处理效应还是误差效应引起的，我们可以计算出处理效应的均方和误差效应的均方，在一定意义下进行比较，从而检验处理间的差异显著性。

假设一个试验有k个处理，每个处理有n个观测数据，则总共有nk的观测值。用

表示第i个处理的第j个观测值，其中i=1，2，3，...，k；j=1，2，3，...，n。

表示第i个处理观测值的总体平均数，

表示试验误差，则有：

，即第i个处理的第j个观测值

是由该处理的总体平均数加上不可避免的试验误差组成的。而对于总体平均数（所有nk个观测数据的平均数）

，则有

。若将各自处理水平上的总体平均数

视为在总体平均数

的基础上施加了不同的处理效应

造成了，则有

。综上，

，即任一个观测数据都是由总体平均数加上处理效应以及试验误差组成的。同理，对于由样本估计的线性模型为：

，

为样本平均数，

为第i个处理的效应，

为试验误差。根据

的不同假定，上述模型可分为：

　　固定模型（fixed model）：各个处理的效应值

是固定的，即除去随机误差外每个处理所产生的效应是固定的，

是个常量且

之和为0。此时的试验处理水平常是根据目的事先主观选定的，如几种不同温度下小麦籽粒的发芽情况。

　　随机模型（random model）：各个处理的效应值

不是固定的，而是由随机因素所引起的效应。

是从期望均值为0，方差为

的正态总体中得到的随机变量。如调查不同生境下某物种的生长状况时，不同生境的气候、土壤条件及水分条件等属于无法认为控制的因素，就要用随机模型来处理。

　　混合模型（mixed model）：多因素试验中，既包括固定效应的因素，又包括随机效应的因素，则该试验应对应于混合模型。

不同模型的侧重点不完全相同，方差期望值也不一样。固定模型主要侧重于效应值

的估计和比较，随机模型则侧重效应方差的估计和检验。因此在进行分析及试验之前就要明确关于模型的基本假设。对于单因素方差分析，固定模型和随机模型没有多大差别。

方差分析的步骤：

　　（进行方差分析时需要满足独立样本、方差齐性、正态分布等条件，如果方差不具备齐性（F检验），可首先进行数据转换，如进行对数转换等）

根据方差分析的基本思想，首先要将测量数据

的总变异进行拆分，分为处理效应

和试验误差

，然后将处理间方差与处理内方差（误差方差）进行F检验，判断处理效应与试验误差差异是否显著。

1.处理间方差和处理内方差的计算：

（1）平方和的拆分：

　　

为第i个处理n个观测数据的平均数，

为全部nk个观测数据的平均数，则有：

（试验误差）和

（处理效应），即观测数据

的总变异是试验误差

与处理效应

之和。

　　将等式两边平方：

每一个处理的n个观测数据累加：

　　由于

，在同一处理水平上

为定值，则上式有：

　　把k个处理再累加则有：

　　其中：

　　

为总平方和，用

表示；

为处理间平方和，用

表示；

为组内平方和，用

表示。所以：

。

（2）*度的分解：

　　

，即总*度=处理间*度+处理内*度

　　

　　

　

　　则：

　　最后，根据各变异部分的平方和与*度，得处理间方差

和处理内方差

：

　　

，

。

2.统计假设的显著性检验—F检验：

　　

，

，

。

　　比较计算所得F值与某显著水平（如0.05）下F值，可得处理间差异是否显著。若处理间差异显著，则需进一步比较哪些处理间差异是显著的。

3.多重比较（multiple comparisions）

　　常用的方法有：最小显著差数法（the least significant difference，LSD）和最小显著极差法（the least significant range，LSR）。

　　LSD法：实质是两个平均数比较的t检验法

　　由于

，得

，

　　当

时，

　　

，

为处理内误差方差，n为同一处理内重复次数。

　　将在一定显著水平上达到差异显著的最小差数LSD定义为：

　　

，

，

　　当

，即在给定的显著水平下差异显著，反之，差异不显著。

　　LSR法：采用不同平均数间用不同的显著差数标准进行比较，依据极差范围内所包含的处理数据（也称为秩次距）k的不同而采用不同的检验尺度。常用的方法有新复极差检验（Duncan法）和q检验（SNK）法。

　　新复极差检验（new multiple range test）：也称为Duncan法、SSR法。

　　当

时，定义某显著水平

下，

，

，

，

为处理内误差方差，n为同一处理内重复次数。将需比较的各平均数按从大到小的顺序排列，则相邻两个平均数位次上的差别M=2，隔一个则M=3，以此类推。根据M值和*度，即可查新复极差检验SSR值表得

，然后得出

。

　　将需比较的两平均数之差与对应的

值比较，则可判断差异是否显著。

　　

，则差异显著，反之不显著。

　　q检验法：SNK法，本质与LSR法相同，将LSR法中的

替换为

，查

值表。

　　当排序秩次超过3时，三种检验的尺度关系为LSD法

　　多重比较结果标记的方法之一：标记字母法。

　　首先将全部平均数从大到小依次排列，最大的字母上标a，将该平均数与以下各平均数相比较，凡差异不显著的标a，直至与之差异显著的平均数标b，然后以此平均数为标准，与比它大的平均数比较，差异不显著的在a的后边标b，然后再以标b的最大的平均数为标准，与以下未标字母的平均数比较，凡差异不显著的仍然标b，直至差异显著的标c，以此类推，直至所有平均数都标记上字母为止。

注：当处理内观测次数（重复数）不相同时，计算公式有所改变。

相关文章

