机器学习-矩阵和线性代数-笔记

时间:2024-02-25 08:37:14

关于奇异值分解具体的可以看看这篇博文SVD

  奇异值分解(Singular Value Decomposition)是一种重要的矩阵分解方法,可以看做对称方阵在任意矩阵上的推广。

假设A是一个m×n阶实矩阵,则存在一个分解使得:

    

通常将奇异值由大而小排列。这样,Σ便能由A唯一确定了。

与特征值、特征向量的概念相对应:

  Σ对角线上的元素称为矩阵A的奇异值;

  U的第i列称为A的关于σi的左奇异向量;

  V的第i列称为A的关于σi的右奇异向量。

线性代数

定义:方阵的行列式

  1 阶方阵的行列式为该元素本身

  n 阶方阵的行列式等于它的任一行 或列 的各元素与其对应的代数余子式乘积之和。

  1×1的方阵,其行列式等于该元素本身。

    

  2×2的方阵,其行列式用主对角线元素乘积减去次对角线元素的乘积。

        

  3×3的方阵:

    

  根据“主对角线元素乘积减去次对角线元素的乘积”的原则,得:

  在一个n阶行列式A中,把(i,j)元素aij所在的第i行和第j列划去后,留下的n-1阶方阵的行列式叫做元素aij的余子式,记作Mij

  代数余子式:Aij=(-1)i+jMij

  

伴随矩阵

对于n×n方阵的任意元素aij都有各自的代数余子式Aij=(-1)i+jMij,构造n×n的方阵A*

      

A*称为A的伴随矩阵。注意Aij位于A*的第j行第i列。

方阵的逆A.A*=|A|.I

由前述结论:

  

  

范德蒙行列式Vandermonde

数学归纳法

矩阵的乘法

 A 为 m × s 阶的矩阵, B 为 s × n 阶的矩阵,那么, C=A × B 是 m × n 阶的矩阵,其中,

      

矩阵和向量的乘法

  A 为 m × n 的矩阵, x 为 n × 1 的列向量,则 Ax为 m × 1 的列向量,记:

  由于 n 维列向量和 n 维空间的点一一对应,上式实际给出了从 n 维空间的点到 m 为空间点的线性变换。

    旋转、平移 (齐次坐标下)

  特殊的,若 m=n ,且 Ax 完成了 n 维空间内的线性变换。

矩阵的秩

  在 m × n 矩阵 A 中,任取 k 行 k 列,不改变这 k2 个元素在 A 中的次序,得到 k 阶方阵,称为矩阵 A 的 k 阶子式。

    显然, m × n 矩阵 A 的 k 阶子式有个。

  设在矩阵 A 中有一个不等于 0 的 r 阶子式 D ,且所有r+1 阶子式 如果存在的话 全等于 0 ,那么 D 称为矩阵 A 的最高阶非零子式, r 称为矩阵 A 的秩,记做R(A)=r 。

    n × n 的可逆矩阵,秩为 n

    可逆矩阵又称满秩矩阵

    矩阵的秩等于它行(列 )向量组的秩

秩与线性方程组的解的关系

    

  对于 n 元线性方程组 Ax=b

    无解的充要条件是 R(A)<R(A,b)    

    有唯一解的充要条件是 R(A)=R(A,b)=n

    有无限多解的充要条件是 R(A)=R(A,b)<n

  推论:

    Ax=0 有非零解的充要条件是 R(A)<n

    Ax=b 有解的充要条件是 R(A)=R(A,b)

向量组等价

  向量 b 能由向量组 A: a1,a2,...,am 线性表示的充要条件是矩阵 A=(a1,a2,...,am ) 的秩等于矩阵B=(a1,a2,...,am ) 的秩。

  设有两个向量组 A:a1,a2,...,am 及 B:b1,b2,...,bn, 若 B 组的向量都能由向量组 A 线性表示,则称向量组 B 能由向量组 A 线性表示。若向量组 A 与向量组 B 能相互线性表示,则称两个向量组等价。

系数矩阵

  将向量组A和B所构成的矩阵依次记做A=(a1,a2,...,am ) ,B=(b1,b2,...,bn)B组能由A组线性表示,即对每个向量bj,存在k1j,k2j,...,kmj

  使得

    

  从而得到系数矩阵K

    

对C=AB 的重认识

  由此可知,若 C=A × B ,则矩阵 C 的列向量能由 A 的列向量线性表示, B 即为这一表示的系数矩阵。

    对偶的,若 C=A × B ,则矩阵 C 的行向量能由B的行向量线性表示, A 即为这一表示的系数矩阵

  向量组 B: b1,b2,...,bn 能由向量组 A: a1,a2,...,am 线性表示的充要条件是矩阵A=(a1,a2,...,am ) 的秩等于矩阵

  (A,B)=(a1,a2,...,am,b1,b2,...,bn) 的秩,即: R(A)=R(A,B)。

正交阵

  若 n 阶矩阵 A 满足 A T A=I ,成 A 为正交矩阵,简称正交阵。

    A 是正交阵的充要条件: A 的列 行 向量都是单位向量,且两两正交。

  A 是正交阵, x 为向量,则 A x 称作正交变换。

    正交变换不改变向量长度

特征值和特征向量

  A 是 n 阶矩阵,若数 λ 和 n 维非 0 列向量 x 满足Ax=λx ,那么,数 λ 称为 A 的特征值, x 称为A的对应于特征值 λ 的特征向量。

  根据定义,立刻得到 (A-λI)x = 0 ,令关于 λ 的多项式 |A-λI| 为 0 ,方程 |A-λI|=0 的根为 A 的特征值;将根 λ0 带入方程组 (A-λI)x = 0 ,求得到的非零解即 λ0 对应的特征向量。

特征值的性质

  设 n 阶矩阵 A=(aij 的特征值为 λ12 ,...λn

  则λ12 +...+λn =a11 +a22 +…+ann

  λ1λ2…λn =|A|

    矩阵 A 主行列式的元素和,称作矩阵 A 的迹。

  已知 λ 是方阵 A 的特征值,则λ2 是 A2 的特征值,A 可逆时,λ1 是 A1 的特征值。

不同特征值对应的特征向量

  设 λ12,...,λm 是方阵 A 的 m 个特征值,p1,p2,...,pm 是依次与之对应的特征向量,若 λ12,...,λm 各不相等,则p1,p2,...,pm 线性无关。
引理

  实对称阵的特征值是实数

    设复数λ为对称阵A的特征值,复向量x为对应的特征向量,即Ax=λx(x≠0)

    用表示λ的共轭复数,表示x的共轭复向量,而A是实矩阵,有

    

  利用上述结论很快得到:

    将实数 λ 带入方程组 (A-λI)x=0 ,该方程组为实系数方程组,因此, 实对称阵 的特征向量可以取 实向量 。

实对称阵不同特征值的特征向量正交

  令实对称矩阵为 A ,其两个不同的特征值 λ1λ2对应的特征向量分别是 μ1μ2

  λ1λ2μ1μ2都是实数或是实向量。

    

  最终结论:设 A 为 n 阶 对称阵 ,则必有 正交阵 P ,使得P-1AP=PTAP=Λ

    Λ 是以 A 的 n 个特征值为对角元的对角阵。

    该变换称为“合同变换”, A 和 Λ 互为合同矩阵。

白化/漂白whitening

  计算观测数据x的n×n的对称阵x.xT的特征值和特征向量,用特征值形成对角阵D,特征向量形成正交阵U,则

    x.xT=UTDU

  令:

  则:

    

正定阵

  对于 n 阶方阵 A ,若任意 n 阶向量 x ,都有xTAx>0 ,则称 A 是正定阵。

    若条件变成 xTAx≥0 ,则 A 称作半正定阵

    类似还有负定阵,半负定阵。

  正定阵的判定:

    对称阵A为正定阵;

    A的特征值都为正;

    A的顺序主子式大于0;

    以上三个命题等价。

  利用定义证明:

    若A、B为n阶半正定阵,则

    从而,

      

  即: 为半正定阵。从而,n阶半正定阵的集合为凸锥。

QR分解

  对于m×n的列满秩矩阵A,必有:

    

  其中QT·Q=I, (即列正交矩阵),R为非奇异上三角矩阵。当要求R的对角线元素为正时,该分解唯一。

  该分解为QR分解。可用于求解矩阵A的特征值、A的逆等问题。

  QR分解计算特征值

  计算 n 阶方阵 A 的特征值:

    

向量的导数

  A为m×n的矩阵, x为n×1的列向量,则Ax为m×1的列向量,记:

  推导:

    

   结论与直接推广:

    向量偏导公式:

        

   标量对向量的导数

    A为n×n的矩阵, x为n×1的列向量,

      

      

   标量对方阵的导数:

    A为n×n的矩阵, |A|为A的行列式,计算

    解:根据等式

      

    

    依据:A·A*=|A|·I,第二个等式成立;

总结

  线性代数是普适的数学工具,是进一步学习其他内容的基础。

    有些机器学习的推导过程使用该工具表述清晰,易于推广,如线性回归。

    重点思考特征值、特征向量和矩阵的关系。