相关分析
相关分析定义
相关分析(correlation analysis),相关分析是研究现象之间是否存在某种依存关系,并对详细有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。
相关关系是一种非确定性的关系,比如,以X和Y分别记一个人的身高和体重,或分别记每公顷施肥量与每公顷小麦产量,则X与Y显然有关系,而又没有确切到可由当中的一个去精确地决定还有一个的程度,这就是相关关系。
[编辑本段]
1、线性相关分析:研究两个变量间线性关系的程度。用相关系数r来描写叙述。
-正相关:假设x,y变化的方向一致,如身高与体重的关系,r>0;一般地,
·|r|>0.95 存在显著性相关;
·|r|≥0.8 高度相关;
·0.5≤|r|<0.8 中度相关;
·0.3≤|r|<0.5 低度相关;
·|r|<0.3 关系极弱,觉得不相关
负相关:假设x,y变化的方向相反,如吸烟与肺功能的关系,r<0;
无线性相关:r=0。
假设变量Y与X间是函数关系,则r=1或r=-1;假设变量Y与X间是统计关系,则-1
r的计算有三种:
·Pearson相关系数:对定距连续变量的数据进行计算。
·Spearman和Kendall相关系数:对分类变量的数据或变量值的分布明显非正态或分布不明时,计算时先对离散数据进行排序或对定距变量值排(求)秩。
2、偏相关分析:研究两个变量之间的线性相关关系时,控制可能对其产生影响的变量。如控制年龄和工作经验的影响,预计工资收入与受教育水平之间的相关关系。
3、距离分析:是对观測量之间或变量之间类似或不类似程度的一种測度,是一种广义的距离。分为观測量之间距离分析和变量之间距离分析。
- 不类似性測度:
·a、对等间隔(定距)数据的不类似性(距离)測度能够使用的统计量有Euclid欧氏距离、欧氏距离平方等。
·b、对计数数据使用卡方。
·c、对二值(仅仅有两种取值)数据,使用欧氏距离、欧氏距离平方、尺寸差异、模式差异、方差等。
- 类似性測度:
·a、等间隔数据使用统计量Pearson相关或余弦。
·b、測度二元数据的类似性使用的统计量有20余种。
[编辑本段]
相关分析与回归分析在实际应用中有密切关系。然而在回归分析中,所关心的是一个随机变量Y对还有一个(或一组)随机变量X的依赖关系的函数形式。而在相关分析中 ,所讨论的变量的地位一样,分析側重于随机变量之间的种种相关特征。比如,以X、Y分别记小学生的数学与语文成绩,感兴趣的是二者的关系怎样,而不在于由X去预測Y。
[编辑本段]
研究一个变量 x0与还有一组变量 (x1,x2,…,xn)之间的相关程度。比如,职业声望同一时候受到一系列因素(收入、文化、权力……)的影响,那么这一系列因素的总和与职业声望之间的关系,就是复相关。复相关系数R0.12…n的測定,可先求出 x0对一组变量x1,x2,…,xn的回归直线,再计算x0与用回归直线预计值悯之间的简单直线回归。复相关系数为
R0.12…n的取值范围为0≤R0.12…n≤1。复相关系数值愈大,变量间的关系愈密切。
偏相关 研究在多变量的情况下,当控制其它变量影响后,两个变量间的直线相关程度。又称净相关或部分相关。比如,偏相关系数 r13.2表示控制变量x2的影响之后,变量 x1和变量x3之间的直线相关。偏相关系数较简单直线相关系数更能真实反映两变量间的联系。
回归分析
文件夹[隐藏]
[编辑本段]
回归分析
回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析依照涉及的自变量的多少,可分为一元回归分析和多元回归分析;依照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。假设在回归分析中,仅仅包含一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这样的回归分析称为一元线性回归分析。假设回归分析中包含两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
方差齐性
效应累加
变量无測量误差
变量服从多元正态分布
观察独立
模型完整(没有包含不该进入的变量、也没有漏掉应该进入的变量)
误差项独立且服从(0,1)正态分布。
现实数据经常不能全然符合上述假定。因此,统计学家研究出很多的回归模型来解决线性回归模型假定过程的约束。
研究一 个或多个随机变量Y1 ,Y2 ,…,Yi与还有一些变量X1、X2,…,Xk之间的关系的统计方法。又称多重回归分析。通常称Y1,Y2,…,Yi为因变量,X1、X2,…,Xk为自变量。回归分析是一类数学模型,特别当因变量和自变量为线性关系时,它是一种特殊的线性模型。最简单的情形是一个自变量和一个因变量,且它们大体上有线性关系,这叫一元线性回归,即模型为Y=a+bX+ε,这里X是自变量,Y是因变量,ε是随机误差,通常假定随机误差的均值为0,方差为σ^2(σ^2大于0)σ2与X的值无关。若进一步假定随机误差遵从正态分布,就叫做正态线性模型。一般的情形,差有k个自变量和一个因变量,因变量的值能够分解为两部分:一部分是由自变量的影响,即表示为自变量的函数,当中函数形式已知,但含一些未知參数;还有一部分是由于其它未被考虑的因素和随机性的影响,即随机误差。当函数形式为未知參数的线性函数时,称线性回归分析模型;当函数形式为未知參数的非线性函数时,称为非线性回归分析模型。当自变量的个数大于1时称为多元回归,当因变量个数大于1时称为多重回归。
回归分析的主要内容为:①从一组数据出发确定某些变量之间的定量关系式,即建立数学模型并预计当中的未知參数。预计參数的经常用法是最小二乘法。②对这些关系式的可信程度进行检验。③在很多自变量共同影响着一个因变量的关系中,推断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量选入模型中,而剔除影响不显著的变量,通经常使用逐步回归、向前回归和向后回归等方法。④利用所求的关系式对某一生产过程进行预測或控制。回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便。
[编辑本段]
回归分析的应用
相关分析研究的是现象之间是否相关、相关的方向和密切程度,一般不差别自变量或因变量。而回归分析则要分析现象之间相关的详细形式,确定其因果关系,并用数学模型来表现其详细关系。比方说,从相关分析中我们能够得知“质量”和“用户惬意度”变量密切相关,可是这两个变量之间究竟是哪个变量受哪个变量的影响,影响程度怎样,则须要通过回归分析方法来确定。
一般来说,回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并依据实測数据来求解模型的各个參数,然后评价回归模型能否够非常好的拟合实測数据;假设能够非常好的拟合,则能够依据自变量作进一步预測。
比如,假设要研究质量和用户惬意度之间的因果关系,从实践意义上讲,产品质量会影响用户的惬意情况,因此设用户惬意度为因变量,记为Y;质量为自变量,记为X。依据图8-3的散点图,能够建立以下的线性关系:
Y=A+BX+§
式中:A和B为待定參数,A为回归直线的截距;B为回归直线的斜率,表示X变化一个单位时,Y的平均变化情况;§为依赖于用户惬意度的随机误差项。
在SPSS软件里能够非常easy地实现线性回归,回归方程例如以下:
y=0.857+0.836x
回归直线在y轴上的截距为0.857、斜率0.836,即质量每提高一分,用户惬意度平均上升0.836分;或者说质量每提高1分对用户惬意度的贡献是0.836分。
740)this.width=740">
上面所看到的的样例是简单的一个自变量的线性回归问题,在数据分析的时候,也能够将此推广到多个自变量的多元回归,详细的回归过程和意义请參考相关的统计学书籍。此外,在SPSS的结果输出里,还能够汇报R2,F检验值和T检验值。R2又称为方程的确定性系数(coefficient of determination),表示方程中变量X对Y的解释程度。R2取值在0到1之间,越接近1,表明方程中X对Y的解释能力越强。通常将R2乘以100%来表示回归方程解释Y变化的百分比。F检验是通过方差分析表输出的,通过显著性水平(significant level)检验回归方程的线性关系是否显著。一般来说,显著性水平在0.05以下,均有意义。当F检验通过时,意味着方程中至少有一个回归系数是显著的,可是并不一定全部的回归系数都是显著的,这样就须要通过T检验来验证回归系数的显著性。相同地,T检验能够通过显著性水平或查表来确定。在上面所看到的的样例中,各參数的意义如表8-2所看到的。
表8-2 线性回归方程检验
指标 |
显著性水平 |
意义 |
|
R |
0.89 |
“质量”解释了89%的“用户惬意度”的变化程度 |
|
F |
276.82 |
0.001 |
回归方程的线性关系显著 |
T |
16.64 |
0.001 |
回归方程的系数显著 |
演示样例 SIM手机用户惬意度与相关变量线性回归分析
我们以SIM手机的用户惬意度与相关变量的线性回归分析为例,来进一步说明线性回归的应用。从实践意义讲上,手机的用户惬意度应该与产品的质量、价格和形象有关,因此我们以“用户惬意度”为因变量,“质量”、“形象”和“价格”为自变量,作线性回归分析。利用SPSS软件的回归分析,得到回归方程例如以下:
用户惬意度=0.008×形象+0.645×质量+0.221×价格
对于SIM手机来说,质量对其用户惬意度的贡献比較大,质量每提高1分,用户惬意度将提高0.645分;其次是价格,用户对价格的评价每提高1分,其惬意度将提高0.221分;而形象对产品用户惬意度的贡献相对较小,形象每提高1分,用户惬意度仅提高0.008分。
方程各检验指标及含义例如以下:
指标 |
显著性水平 |
意义 |
|
R2 |
0.89 |
“质量”和“形象”解释了89%的“用户惬意度”的变化程度 |
|
F |
248.53 |
0.001 |
回归方程的线性关系显著 |
T(形象) |
0.00 |
1.000 |
“形象”变量对回归方程差点儿没有贡献 |
T(质量) |
13.93 |
0.001 |
“质量”对回归方程有非常大贡献 |
T(价格) |
5.00 |
0.001 |
“价格”对回归方程有非常大贡献 |
从方程的检验指标来看,“形象”对整个回归方程的贡献不大,应予以删除。所以又一次做“用户惬意度”与“质量”、“价格”的回归方程例如以下:
用户惬意度=0.645×质量+0.221×价格
对于SIM手机来说,质量对其用户惬意度的贡献比較大,质量每提高1分,用户惬意度将提高0.645分;用户对价格的评价每提高1分,其惬意度将提高0.221分(在本演示样例中,由于“形象”对方程差点儿没有贡献,所以得到的方程与前面的回归方程系数差点儿相同)。
方程各检验指标及含义例如以下:
指标 |
显著性水平 |
意义 |
|
R |
0.89 |
“质量”和“形象”解释了89%的“用户惬意度”的变化程度 |
|
F |
374.69 |
0.001 |
回归方程的线性关系显著 |
T(质量) |
15.15 |
0.001 |
“质量”对回归方程有非常大贡献 |
T(价格) |
5.06 |
0.001 |
“价格”对回归方程有非常大贡献 |
扩展阅读:
1.简明农业词典 科学出版社 1978年8月 188页
2.农业试验设计与统计方法一百例 陕西科学技术出版社 1987年9月 473页,569页
3.http://www.dina.com.cn/ShowInfoContent4.asp?ID=106
回归分析与相关分析的差别与联系
差别:
1、相关分析研究的两个变量是对等关系,回归分析研究的两个变量不是对等关系
2、相关分析的两个变量都是随机变量,回归分析自变量是能够设定和控制的普通变量,因变量是随机变量
3、回归方程在进行预測预计时,仅仅能由自变量的数值来预计因变量的可能值,不能由因变量来猜測自变量
联系:
1、相关分析是回归分析的基础
2、回归分析是相关分析的继续