目录
变量间的关系分析
变量间的关系有两类,一类是变量间存在着完全确定的关系,称为函数关系,另一类是变量间的关系不存在完全的确定性,不能用精缺的数学公式表示,但变量间存在十分密切的关系,这种称为相关关系,存在相关关系的变量称为相关变量。
相关变量间的关系有两种:一种是平行关系,即两个或两个以上变量相互影响。另一种是依存关系,即是一个变量的变化受到另一个或多个变量的影响。相关分析是研究呈平行关系的相关变量之间的关系。而回归分析是研究呈依存关系的相关变量间的关系。表示原因的变量称为自变量-independent variable,表示结果的变量称为因变量-dependent variable。
什么是相关分析
通过计算变量间的相关系数来判断两个变量的相关程度及正负相关。
什么是回归分析
通过研究变量的依存关系,将变量分为因变量和自变量,并确定自变量和因变量的具体关系方程式
分析步骤
建立模型、求解参数、对模型进行检验
回归分析与相关分析的主要区别
1.在回归分析中,解释变量称为自变量,被解释变量称为因变量,相关分析中,并不区分自变量和因变量,各变量处于平的地位。--(自变量就是自己会变得变量,因变量是因为别人改变的)
2.在相关分析中所涉及的变量全部是随机变量,在回归分析中只有只有因变量是随机变量。
3.相关分析研究主要是为刻画两类变量间的线性相关的密切程度,而回归分析不仅可以揭示自变量对因变量的影响大小,还可以由回归方程进行预测和控制。
一元线性相关分析
线性相关分析是用相关系数来表示两个变量间相互的线性关系,总体相关系数的计算公式为:
δ^2x代表x的总体方差, δ^2y代表y的总体方差,δxy代表x变量与y变量的协方差,相关系数ρ没有单位,在-1到1之间波动,绝对值越接近1越相关,符号代表正相关或复相关。
一元线性回归分析
使用自变量与因变量绘制散点图,如果大致呈直线型,则可以拟合一条直线方程
建模
直线模型为:
y是因变量y的估计值,x为自变量的实际值,a、b为待估值
几何意义:a是直线方程的截距,b是回归系数
经济意义:a是x=0时y的估计值,b是回归系数
对于上图来说,x与y有直线的趋势,但并不是一一对应的,y与回归方程上的点的差距成为估计误差或残差,残差越小,方程愈加理想。
当误差的平方和最小时,即Q,a和b最合适
对Q求关于a和b的偏导数,并令其分别等于零,可得:
式中,lxx表示x的离差平方和,lxy表示x与y的离差积和。
方差分析检验
将因变量y实测值的离均差平方和分成两部分即使:
分为:
实测值yi扣除了x对y的线性影响后剩下的变异
和x对y的线性影响,简称为回归评方或回归贡献
然后证明:
t检验
当β成立时,样本回归系数b服从正态分布,这是可以使用T检验判断是否有数学意义,检验所用统计量为
例如t=10,那么可以判断α=0.05水平处拒绝H0,接受H1,那么x与y存在回归关系
多元回归分析模型建立
一个因变量与多个自变量间的线性数量关系可以用多元线性回归方程来表示
b0是方程中的常数项,bi,i=1,2,3称为偏回归系数。
当我们得到N组观测数据时,模型可表示为:
其矩阵为:
X为设计阵,β为回归系数向量。
线性回归模型基本假设
在建立线性回归模型前,需要对模型做一些假定,经典线性回归模型的基本假设前提为:
1.解释变量一般来说是非随机变量
2.误差等方差及不相关假定(G-M条件)
3.误差正太分布的假定条件为:
4. n>p,即是要求样本容量个数多于解释变量的个数
多元回归分析用途
1.描述解释现象,希望回归方程中的自变量尽可能少一些
2.用于预测,希望预测的均方误差较小
3.用于控制,希望各个回归系数具有较小的方差和均方误差
变量太多,容易引起以下四个问题:
1.增加了模型的复杂度
2.计算量增大
3.估计和预测的精度下降
4.模型应用费用增加
多元线性相关分析
两个变量间的关系称为简单相关,多个变量称为偏相关或复相关
矩阵相关分析
设n个样本的资料矩阵为:
此时任意两个变量间的相关系数构成的矩阵为:
其中rij为任意两个变量之间的简单相关系数,即是:
复相关分析
系数计算:
设y与x1,x2,....,回归模型为
y与x1,x2,....做相关分析就是对y于y^做相关分析,相关系数计算公式为
曲线回归模型
多项式曲线
二次函数
y=a+bx+cx^2
对数函数
y=a+blogx
指数函数
y = ae^bx或y = ae^(b/x)
幂函数
y=ax^b (a>0)
双曲线函数
y = a+b/x