很简单。比如j(theta)是下面的方程
通过是导数等于0 一步就能求出theta
对于下面的j(theta).
对每个参数求偏导 得到的结果也是最快的。
但是实际上对每个求偏导很麻烦。也很费事
因此可以用如下的方程来求解
当数据量不大的时候可以使用标准方程法。
但是梯度下降法始终都可以运用。
如果标准方程法中 XtX不是可逆的呢?(可以用伪逆矩阵)
一般XtX是可逆的,但是如果不可逆,一般有两种情况
1特征并不独立。比如x1是平方米 x2是平方英尺。这两个是有关系的
2 就是特征比样本的数量要多。比如你有100个特征。但是只有10个样本。
如果确实是不可逆的首先检查特征值里面是否有多余的特征
比如x1 x2线性相关 可以删除一个特征。来解决不可逆的问题
第二检查是否有过多的特征。如果有。删除一些多余的特征。尽量用较少的特征来表达更多的内容
或者使用正则化(Regularization)
(后续再说)。
一般来说是不会遇到不可逆的情况。因此不需要过多关注不可逆的情况