回归分析学习

时间:2024-11-13 08:46:16

学习视频链接: 【回归分析,一套搞定】!全网最通俗易懂的回归分析教程,我终于学明白了!_哔哩哔哩_bilibili

相关分析:2个或两个以上的变量之间的相关程度及大小的统计方法;

回归分析:存在相关关系的变量间的数学表达式,并进行统计推断的一种统计方法

分类方式:

        变量数目: 一元回归(1个X,一个Y);多元回归(多个X,一个Y)

        自变量与因变量的表现形式:线性和非线性

一元线性回归,一元非线性回归、多元线性回归、多元非线性回归

案例:

         可以基于回归方程预测出更多的值。

        希望构造的方程偏差小。

回归分析的步骤:

        确定变量

        确定回归模型,建立回归方程

        对回归方程做检验

        利用回归方程预测

一元线性回归

        因变量:y (被预测,被解释的变量)

        自变量: x (预测或解释因变量的变量)

        最小二乘法求解:

                最小二乘法的由来:(成立原因)

                        需要拟合的平面:h_\theta (x) = \theta _0 + \theta_1 x_1 + \theta_2 x_2

                        整合: h_{\theta} (x) = \sum_{i=0}^{n} \theta_i x_i= \theta ^T x

                        误差: 真实值与预测值之间的误差,对于每个样本都有 y^{(i)} = \theta^Tx^{(i)} + \varepsilon ^{(i)}  (1), 误差是独立同分布,并且满足高斯分布: p(\varepsilon ^{(i)}) = \frac{1}{\sqrt{2 \pi}\sigma } exp(-\frac{(\varepsilon ^{(i)})^2}{2\sigma ^2}) (2)

                        将(1)代入(2): p(y^{(i)}|x^{(i)}; \theta) = \frac{1}{\sqrt{2\pi}\sigma } exp(-\frac{(y^{(i)} - \theta^T x^{(i)})^2}{2 \sigma ^2}) 含义:什么样的\theta 以及 x组合,使得其成为y的可能性最高

                        似然函数:什么样的参数与数据组合后,组成y的概率最高; 希望所有样本的效果都达到较好的结果: L(\theta) = \prod_{i=1}^{m} p(y^{(i)}| x^{(i)}; \theta) = \prod_{i=1}^{m} \frac{1}{\sqrt{2\pi}\sigma } exp(-\frac{(y^{(i)} - \theta^T x^{(i)})^2}{2 \sigma ^2})

                        对数似然: log L(\theta) = \prod_{i=1}^{m} p(y^{(i)}| x^{(i)}; \theta) = log \prod_{i=1}^{m} \frac{1}{\sqrt{2\pi}\sigma } exp(-\frac{(y^{(i)} - \theta^T x^{(i)})^2}{2 \sigma ^2})

                        化简对数似然:\sum_{i=1}^{m} log \prod_{i=1}^{m} \frac{1}{\sqrt{2\pi}\sigma } exp(-\frac{(y^{(i)} - \theta^T x^{(i)})^2}{2 \sigma ^2}) = m log(\frac{1}{\sqrt{2\pi}\sigma }) - \frac{1}{2 \sigma^2} \sum_{i=1}^{m}(y^{(i)} - \theta^T x^{(i)})^2

                        让对数似然越大越好:即需要最小化后半部分:J(\theta) = \frac{1}{2}\sum_{i=1}^{m}(y^{(i)} - \theta^T x^{(i)})^2 -- 最小二乘法 

        针对问题的求解: 利用因变量的观测值y,与估计值之间的离差平方和最小

                

    

        求其极小值点 --- 求偏导: