文章目录
- 1.特征值和特征向量
- 2.矩阵的特征分解
- 3.直观理解
- 4.通过特征分解求逆矩阵
- 5.对特殊矩阵的矩阵分解
- 对称矩阵
- 参考
1.特征值和特征向量
线性代数中,特征分解(eigendecomposition)是将矩阵分解为由特征值和特征向量表示的矩阵之积的方法。
给定一个方阵
A
∈
R
n
×
n
A \in\mathbb{R}^{n\times n}
A∈Rn×n,我们认为在以下条件下,
λ
∈
C
\lambda \in\mathbb{C}
λ∈C是
A
A
A的特征值,
x
∈
C
n
x\in\mathbb{C}^n
x∈Cn是相应的特征向量:
A
x
=
λ
x
,
x
≠
0
Ax=\lambda x,x \ne 0
Ax=λx,x=0直观地说,这个定义意味着将
A
A
A乘以向量
x
x
x会得到一个新的向量,该向量指向与
x
x
x相同的方向,但按系数
λ
\lambda
λ缩放。值得注意的是,对于任何特征向量
x
∈
C
n
x\in\mathbb{C}^n
x∈Cn和标量
t
∈
C
t\in\mathbb{C}
t∈C,
A
(
c
x
)
=
c
A
x
=
c
λ
x
=
λ
(
c
x
)
A(cx)=cAx=c\lambda x=\lambda(cx)
A(cx)=cAx=cλx=λ(cx),
c
x
cx
cx也是一个特征向量。
因此,当我们讨论与
λ
\lambda
λ相关的特征向量时,我们通常假设特征向量被标准化为长度为1(这仍然会造成一些歧义,因为
x
x
x和
−
x
−x
−x都是特征向量,但我们必须接受这一点)。
我们可以重写上面的等式来说明 ( λ , x ) (\lambda,x) (λ,x)是 A A A的特征值和特征向量的组合: ( λ I − A ) x = 0 , x ≠ 0 (\lambda I-A)x=0,x \ne 0 (λI−A)x=0,x=0但是 ( λ I − A ) x = 0 (\lambda I-A)x=0 (λI−A)x=0只有当 ( λ I − A ) (\lambda I-A) (λI−A)有一个非空零空间时,同时 ( λ I − A ) (\lambda I-A) (λI−A)是奇异的, x x x才具有非零解,即: ∣ ( λ I − A ) ∣ = 0 |(\lambda I-A)|=0 ∣(λI−A)∣=0现在,我们可以使用行列式的先前定义将表达式 ∣ ( λ I − A ) ∣ |(\lambda I-A)| ∣(λI−A)∣扩展为 λ \lambda λ中的(非常大的)多项式,其中, λ \lambda λ的度为 n n n。它通常被称为矩阵 A A A的特征多项式。
然后我们找到这个特征多项式的 n n n(可能是复数)根,并用 λ 1 , ⋯ , λ n \lambda_1,\cdots,\lambda_n λ1,⋯,λn表示。这些都是矩阵 A A A的特征值,但我们注意到它们可能不明显。为了找到特征值 λ i \lambda_i λi对应的特征向量,我们只需解线性方程 ( λ I − A ) x = 0 (\lambda I-A)x=0 (λI−A)x=0,因为 ( λ I − A ) (\lambda I-A) (λI−A)是奇异的,所以保证有一个非零解(但也可能有多个或无穷多个解)。
应该注意的是,这不是实际用于数值计算特征值和特征向量的方法(记住行列式的完全展开式有 n ! n! n!项),这是一个数学上的争议。
以下是特征值和特征向量的属性(所有假设在 A ∈ R n × n A \in\mathbb{R}^{n\times n} A∈Rn×n具有特征值 λ 1 , ⋯ , λ n \lambda_1,\cdots,\lambda_n λ1,⋯,λn的前提下):
-
A A A的迹等于其特征值之和 tr A = ∑ i = 1 n λ i \operatorname{tr} A=\sum_{i=1}^{n} \lambda_{i} trA=i=1∑nλi
-
A A A的行列式等于其特征值的乘积 ∣ A ∣ = ∏ i = 1 n λ i |A|=\prod_{i=1}^{n} \lambda_{i} ∣A∣=i=1∏nλi
-
A A A的秩等于 A A A的非零特征值的个数
-
假设 A A A非奇异,其特征值为 λ \lambda λ和特征向量为 x x x。那么 1 / λ 1/\lambda 1/λ是具有相关特征向量 x x x的 A − 1 A^{-1} A−1的特征值,即 A − 1 x = ( 1 / λ ) x A^{-1}x=(1/\lambda)x A−1x=(1/λ)x。(要证明这一点,取特征向量方程, A x = λ x Ax=\lambda x Ax=λx,两边都左乘 A − 1 A^{-1} A−1)
-
对角阵的特征值 d = d i a g ( d 1 , ⋯ , d n ) d=diag(d_1,\cdots,d_n) d=diag(d1,⋯,dn)实际上就是对角元素 d 1 , ⋯ , d n d_1,\cdots,d_n d1,⋯,dn
注意:只有可对角化矩阵才能特征分解
2.矩阵的特征分解
令
A
\mathbf{A}
A是一个
n
×
n
n\times n
n×n的方阵,且有
n
n
n个线性独立的特征向量
q
i
(
i
=
1
,
…
,
n
)
\mathbf{q_i} (i=1,\dots,n)
qi(i=1,…,n),A可以被分解为
A
=
Q
Λ
Q
−
1
\mathbf{A}=\mathbf{Q}\Lambda \mathbf{Q^{-1}}
A=QΛQ−1
其中
Q
\mathbf{Q}
Q是
n
×
n
n\times n
n×n方阵,且第
i
i
i列
A
A
A的特征向量
q
i
\mathbf{q_i}
qi。
Λ
\Lambda
Λ是对角矩阵,其对角线上的元素为对应的特征值,即
Λ
i
i
=
λ
i
\mathbf{\Lambda_{ii}=\lambda_i}
Λii=λi
一般而言,特征向量
q
i
(
i
=
1
,
…
,
n
)
\mathbf{q_i} (i=1,\dots,n)
qi(i=1,…,n)被单位化,但是未被单位化的特征向量
v
i
(
i
=
1
,
…
,
n
)
\mathbf{v_i} (i=1,\dots,n)
vi(i=1,…,n)也可以作为
Q
\mathbf{Q}
Q的列向量。可以理解为
Q
\mathbf{Q}
Q中向量的长度被
Q
−
1
\mathbf{Q^{-1}}
Q−1抵消了。
3.直观理解
先说结论
将向量看作空间中一个点,矩阵可视作点的运动,对于可以矩阵分解的矩阵:
- 特征值就是运动的速度
- 特征向量就是运动的方向
令矩阵 A = [ 5 2 − 3 2 − 3 2 3 2 ] = [ 3 2 1 2 − 1 2 3 2 ] [ 3 0 0 1 ] [ 3 2 − 1 2 1 2 3 2 ] = Q Λ Q − 1 \mathbf{A}= \begin{bmatrix} \frac{5}{2} & -\frac{\sqrt{3}}{2} \\ -\frac{\sqrt{3}}{2} & \frac{3}{2} \end{bmatrix} =\begin{bmatrix} \frac{\sqrt{3}}{2} & \frac{1}{2} \\ -\frac{1}{2} & \frac{\sqrt{3}}{2} \end{bmatrix} \begin{bmatrix} 3 & 0 \\ 0 & 1 \end{bmatrix} \begin{bmatrix} \frac{\sqrt{3}}{2} & -\frac{1}{2} \\ \frac{1}{2} & \frac{\sqrt{3}}{2} \end{bmatrix}\\ =\mathbf{Q}\Lambda \mathbf{Q^{-1}} A=[25−23−2323]=[23−212123][3001][2321−2123]=QΛQ−1
将
A
\mathbf{A}
A左乘一个单位矩阵
I
=
[
x
,
y
]
=
[
1
0
0
1
]
\mathbf{I=[x,y]=\begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}}
I=[x,y]=[1001],即
A
I
=
Q
Λ
Q
−
1
I
\mathbf{AI}=\mathbf{Q\Lambda Q^{-1}I}
AI=QΛQ−1I
我们看下向量
x
,
y
x, y
x,y发生了什么变换
Q
−
1
I
=
[
3
2
−
1
2
1
2
3
2
]
\mathbf{Q^{-1}I}= \begin{bmatrix} \frac{\sqrt{3}}{2} & -\frac{1}{2} \\ \frac{1}{2} & \frac{\sqrt{3}}{2} \end{bmatrix}
Q−1I=[2321−2123]
向量 x = [ 1 0 ] ⇒ [ 3 2 1 2 ] \mathbf{x}=\begin{bmatrix}1 \\ 0\end{bmatrix} \Rightarrow \begin{bmatrix}\frac{\sqrt{3}}{2} \\ \frac{1}{2} \end{bmatrix} x=[10]⇒[2321],向量 y = [ 0 1 ] ⇒ [ − 1 2 3 2 ] \mathbf{y}=\begin{bmatrix}0 \\ 1\end{bmatrix} \Rightarrow \begin{bmatrix} -\frac{1}{2} \\ \frac{\sqrt{3}}{2} \end{bmatrix} y=[01]⇒[−2123]
可以看出,
x
,
y
\mathbf{x,y}
x,y分别逆时针旋转
π
6
\frac{\pi}{6}
6π
怎么办到的呢?给定要给一个题目,将二维平面上一点逆时针旋转
θ
\theta
θ,求旋转后得坐标。可以解得:
{
x
r
=
x
cos
θ
−
y
sin
θ
y
r
=
x
sin
θ
+
y
cos
θ
\left\{ \begin{array}{c} x_r=x\cos\theta-y\sin\theta \\ y_r=x\sin\theta+y\cos\theta \end{array} \right.
{xr=xcosθ−ysinθyr=xsinθ+ycosθ
令
θ
=
π
6
\theta=\frac{\pi}{6}
θ=6π
{
x
r
=
3
2
x
−
1
2
y
y
r
=
1
2
x
+
3
2
y
\left\{ \begin{array}{c} x_r=\frac{\sqrt{3}}{2}x-\frac{1}{2}y \\ y_r=\frac{1}{2}x+\frac{\sqrt{3}}{2}y \end{array} \right.
{xr=23x−21yyr=21x+23y
比对一下上式与
Q
−
1
\mathbf{Q^{-1}}
Q−1,会发现两者相同,所以,
Q
−
1
\mathbf{Q^{-1}}
Q−1得作用就是将单位矩阵每个列向量逆时针旋转
π
6
\frac{\pi}{6}
6π
对角矩阵 Λ \mathbf{\Lambda} Λ则是将向量沿着特征向量的方向放缩, Q \mathbf{Q} Q再将旋转的向量还原回去。
4.通过特征分解求逆矩阵
若矩阵
A
\mathbf{A}
A可被特征分解且特征值中不含
0
0
0,则矩阵
A
\mathbf{A}
A为非奇异矩阵,且其逆矩阵
A
=
Q
Λ
−
1
Q
−
1
\mathbf{A=Q\Lambda^{-1}Q^{-1}}
A=QΛ−1Q−1
因为
Λ
\mathbf{\Lambda}
Λ为对角矩阵,其逆矩阵容易计算出
[
Λ
−
1
]
i
i
=
1
λ
i
\mathbf{[\Lambda^{-1}]_{ii}=\frac{1}{\lambda_i}}
[Λ−1]ii=λi1
5.对特殊矩阵的矩阵分解
对称矩阵
任意的实对称矩阵的特征值都是实数且有
n
n
n个线性无关的特征向量,并且这些特征向量都可以正交单位化得到一组正交且模长为1的向量。实对称矩阵可被分解成
A
=
Q
Λ
Q
−
1
=
Q
Λ
Q
T
\mathbf{A=Q\Lambda Q^{-1}=Q\Lambda Q^T}
A=QΛQ−1=QΛQT
Q
\mathbf{Q}
Q为正交矩阵,
Λ
\mathbf{\Lambda}
Λ为实对角矩阵
参考
特征分解
如何理解矩阵特征值?