【线性代数】 06 - Jordan标准型 - 卞爱华

时间:2024-02-24 12:49:24

【线性代数】 06 - Jordan标准型

  现在就来研究将空间分割为不变子空间的方法,最困难的是我们还不知道从哪里着手。你可能想到从循环子空间出发,一块一块地进行分割,但这个方案的存在性和唯一性都不能解决。不变子空间分割不仅要求每个子空间\(V\'\)是不变的,还隐含要求\(V\'\)之外元素的像不落在\(V\'\)中,这一条就导致从局部开始分割的方案是行不通的。另外,这种方法也无法保障分割的唯一性,因为分割过程依赖每个子空间的选取。

1. 化零多项式

  看来还是得从全局出发,期望找到某个属性,它能将空间完美分割。那么首先要将整个空间\(V\)放置在\(\mathscr{A}\)的某个属性下,然后按这个属性再进行细分。这一步该如何跨出是很艰难的,想必历史上也并不是一蹴而就得来的。前面我们已经做了一些简单的铺垫,最重要的一个是,变换的多项式所具有的不变子空间。你可能问过自己,对一般的变换,是否有对其成立的恒等式?如果可以在多项式中找到这个等式就更好了。

  想法是很好的,但在走向结论时却需要一个巧妙的构造,我不知道数学家们是如何得到的,毕竟自己的素养还不够。回顾特征矩阵\(\lambda I-A\),你既可以把它看成是矩阵系数的多项式,也可以看成是以多项式为元素的矩阵。但在所有的变形中,其实我们默认\(\lambda\)是域\(K\)中的元素,而不是任意的不定元。所以变形得到的等式也不能草率地当作一般多项式看待,尤其不能随便用一个矩阵带入到式子中,这一点一定要弄清楚。

  但庆幸的是,还真有一个特殊情况,矩阵是可以代入多项式等式的。考察特征矩阵的任意一个等式(1),展开左式并对应到右式,得到一系列等式(2)。等式两边分别乘上\(I,A,A^2,\cdots\)并相加,就得到\(0=f(A)\),这就仿佛是将矩阵\(A\)代入了等式(1)。但这种代入一般是很难成立,它是得益于特征矩阵的特殊形式,我们可以把这个有趣的性质当做结论,

\[(\lambda I-A)g(\lambda)=(\lambda I-A)(\lambda^mB_m+\lambda^{m-1}B_{m-1}+\cdots+B_0)=\lambda^nC_n+\lambda^{n-1}C_{n-1}+\cdots+C_0=f(\lambda)\tag{1}\]

\[-AB_0=C_0;\;B_0-AB_1=C_1;\;B_1-AB_2=C_2;\cdots B_{n-1}-AB_n=C_n;\;B_n-AB_{n+1}=0;\cdots B_m=0\tag{2}\]

  特别地,取\(g(\lambda)\)为\(\lambda I-A\)的伴随矩阵,等式右边就是\(\varphi(\lambda)I\),从而有Hamilton-Caylay定理成立(公式(3),请参考抽象代数多项式里的余数定理)。定理的线性变换形式是\(\varphi(\mathscr{A})=0\),这个公式对整个空间\(V\)都成立,或者说\(V\)是变换\(\varphi(\mathscr{A})\)的核,我们就从这里开始寻找进一步的结论。

\[\varphi(\lambda)=|\lambda I-A|\quad\Rightarrow\quad \varphi(A)=0\tag{3}\]

  更一般地,满足\(f(\mathscr{A})=0\)的多项式称为\(\mathscr{A}\)的化零多项式,其中次数最小的首一多项式叫做\(\mathscr{A}\)的最小多项式,记作\(d(\lambda)\)。这些定义对矩阵同样成立,而且显然最小多项式也是相似变换的不变量。类似抽象代数中的分析,容易知道最小多项式是唯一的,且它整除所有的化零多项式,从而有\(d(\lambda)\mid \varphi(\lambda)\)。

   特征多项式和最小多项式还有一个有趣的应用,先给它们一个统一的形式\(f(\lambda)=\lambda^n+a_{n-1}\lambda^{n-1}+\cdots+a_0\),则\(f(A)=0\)。对可逆矩阵\(A\),易知\(a_0\ne 0\),将\(a_0I\)移到等式右边,左边提取出\(A\)便有等式(4)成立。根据这个等式可以比较容易地计算\(A^{-1}\)。

\[A(A^{n-1}+a^{n-1}A^{n-2}+\cdots+a_1I)=a_0I\tag{4}\]

   求证:循环子空间的特征多项式即最小多项式,并求上一篇中式(18)的特征多项式。

2. 根子空间

  更一般地,我们考察任何多项式\(f(\lambda)\),设它有互质分解\(f(\lambda)=f_1(\lambda)f_2(\lambda)\),即有式(5)成立。考察不变子空间\(W=\text{Ker}\,f(\mathscr{A})\)和\(W_i=\text{Ker}\,f_i(\mathscr{A})\),首先显然有\(W_i\subseteq W\)。对任何\(\alpha\in W\),有\(f_1(\mathscr{A})f_2(\mathscr{A})(\alpha)=0\),再由公式(5)知\(\alpha\)可按式(6)进行分解,但显然\(\alpha_i\in W_i\),所以有\(W=W_1+W_2\)。

\[g_1(\lambda)f_1(\lambda)+g_2(\lambda)f_2(\lambda)=1\tag{5}\]

\[\alpha=g_1(\mathscr{A})f_1(\mathscr{A})(\alpha)+g_2(\mathscr{A})f_2(\mathscr{A})(\alpha)=\alpha_2+\alpha_1\tag{6}\]

  现在设\(\beta\in W_1\cap W_2\),再次用公式(5)有\(\beta=g_1(\mathscr{A})f_1(\mathscr{A})(\beta)+g_2(\mathscr{A})f_2(\mathscr{A})(\beta)=0\),从而\(W_1\cap W_2=0\),这就是说\(W=W_1\oplus W_2\)。以此归纳,如果\(f(\lambda)\)有互质分解\(f_1(\lambda)f_2(\lambda)\cdots f_s(\lambda)\),则有公式(7)成立。

\[\text{Ker}\,f(\mathscr{A})=\text{Ker}\,f_1(\mathscr{A})\oplus\text{Ker}\,f_2(\mathscr{A})\oplus\cdots\oplus\text{Ker}\,f_s(\mathscr{A})\tag{7}\]

  现在来看最小多项式\(d(\lambda)\),在代数闭域(复数域)中有互质分解(8),将公式(7)应用到式(8)便有式(9)成立。其中\(W_i\)都是不变子空间,这就找到了我们所要的分割。虽然这个分割保证了存在性和唯一性,但还没有达到最小分割,相似矩阵也没有找到简单的标准型,这个任务到下一段再解决。

\[d(\lambda)=(\lambda-\lambda_1)^{r_1}(\lambda-\lambda_2)^{r_2}\cdots(\lambda-\lambda_s)^{r_s}\tag{8}\]

\[V=W_{\lambda_1}\oplus W_{\lambda_2}\oplus\cdots\oplus W_{\lambda_s},\quad W_{\lambda_i}=\text{Ker}\,(\mathscr{A}-\lambda_i\mathscr{I})^{r_i}\tag{9}\]

  有些细节我们还需要再讨论一下,最小多项式和特征多项式有什么关系?最小究竟是什么最小?特征多项式根的重数又代表什么?首先易知\(W_{\lambda_i}\)都不为零,否则\(d(\lambda)\)去掉\((\lambda-\lambda_i)^{r_i}\)后仍然是化零多项式,这与最小多项式矛盾。\(W_{\lambda_i}\)非零等价于说\(A-\lambda_i I\)不是满秩的,从而\(\lambda_i\)是\(A\)的特征值。反之根据公式(9)知,\(\lambda_1,\cdots,\lambda_s\)包含了所有\(A\)的特征值,否则直和包含不了所有的特征子空间。从而最小多项式与特征多项式有完全一样的根,且由整除性知,特征多项式根的重数不小于最小多项式根的重数(公式(10))。

\[\varphi(\lambda)=(\lambda-\lambda_1)^{t_1}(\lambda-\lambda_2)^{t_2}\cdots(\lambda-\lambda_s)^{t_s},\quad t_i\geqslant r_i>0\tag{10}\]

  现在设\(U_k=\text{Ker}\,(\mathscr{A}-\lambda_i\mathscr{I})^k\),显然\(U_1\)就是\(\lambda_i\)的特征子空间,并且有\(U_1\subseteq U_2\subseteq U_3\subseteq\cdots\)。这个序列不会无穷递增,且容易证明等式一旦\(U_m=U_{m+1}\)成立,等式会一直成立。如果\(m>r_i\),则\(U_m\supset W_{\lambda_i}\)且\(U_m\)与其它\(W_{\lambda}\)无交集,这与公式(9)矛盾。如果\(m<r_i\),则\(U_m=W_{\lambda_i}\),带入公式(9)容易证明,将\(d(\lambda)\)中的\((\lambda-\lambda_i)^{r_i}\)换成\((\lambda-\lambda_i)^m\)后仍然是化零多项式,这与最小多项式矛盾。

  从而正好有\(m=r_i\),这就找到了最小多项式根的重数的意义(公式(11)),为此也称\(W_{\lambda_i}\)为\(\lambda_i\)的根子空间。把\(W_{\lambda_i}\)简记为\(W\),显然线性变换\(\mathscr{A}\)在\(W\)下的限制\(\mathscr{A}|_W\)也是线性变换,且由定义知该限制的最小多项式是\((\lambda-\lambda_i)^{r_i}\)。由公式和(9)和(10)的结论知,\(\mathscr{A}|_W\)的特征多项式正是\((\lambda-\lambda_i)^{t_i}\),从而间接说明了\(W_{\lambda_i}\)的维数是\(t_i\),这就是特征多项式根的重数的意义(公式(12))。

\[\text{Ker}\,(\mathscr{A}-\lambda_i\mathscr{I})\subset\cdots\subset\text{Ker}\,(\mathscr{A}-\lambda_i\mathscr{I})^{r_i}=\text{Ker}\,(\mathscr{A}-\lambda_i\mathscr{I})^{r_i+1}=\cdots\tag{11}\]

\[\dim\,W_{\lambda_i}=t_i\tag{12}\]

3. 幂零变换

  由\(W\)的定义可知,\(r_i\)是使得\((\mathscr{A}-\lambda_i\mathscr{I})^k|_W=0\)的最小整数\(k\)。为此我们定义满足\(\mathscr{A}^r=0,\mathscr{A}^{r-1}\ne 0\)的线性变换为\(r\)次幂零变换,从而\(\mathscr{A}-\lambda_i\mathscr{I}|_W\)是\(r_i\)次幂零变换。如果能找到幂零变换的简单相似矩阵\(S\),则就可以有\(A\)的简单相似矩阵\(S+\lambda_i I\),下面来着手解决这个问题。

  幂零变换在任何子集的限制下仍然是幂零的,故任何不变子空间的最小多项式都是\(\lambda^m=0\)的形式。特别地,\(m\)阶循环子空间的特征多项式和最小多项式都是\(\lambda^m=0\),这样的循环子空间也叫强循环子空间。容易知道,强循环子空间的变换矩阵为式(13),而且它的\(k\)次幂正好是将\(I_n\)的对角线向右上角移动\(k\)次,故有\(\text{rank}\,J_n^k=n-k\),直至\(J_n^n=0\)。

\[J_n=\begin{bmatrix}0&1&&\\&\ddots&\ddots&\\&&\ddots&1\\&&&0\end{bmatrix}\tag{13}\]

  设\(\mathscr{A}\)是\(n\)维空间\(V\)上的\(m\)次幂零变换,当\(n=1\)时显然有\(\mathscr{A}=0\),结论比较平凡。当\(n=2\)时,\(m\)可以取\(1\)或\(2\),\(m=1\)时为平凡变换\(\mathscr{A}=0\)。\(m=2\)时存在\(\alpha\)使得\(\mathscr{A}\alpha\ne 0\),且\(\alpha,\mathscr{A}\alpha\)线性无关,所以\(V\)其实是一个\(2\)维强循环子空间。反过来再看\(m=1\)的情况,\(V\)其实就是两个\(1\)维强循环子空间的直和。总结就有:\(n\)维空间在幂零变换下可以分解为\(l\)个强循环子空间的直和,其中\(l\)是\(\text{Ker}\,\mathscr{A}\)的维数。

  设以上结论对\(k<n\)维空间成立,下面用归纳法来证结论对\(n\)维空间也成立。先记\(W=\text{Ker}\,\mathscr{A}\),对\(\mathscr{A}=0\)的平凡场景结论明显成立,当\(\mathscr{A}\ne 0\)时\(W\ne 0\)且维度\(s<n\)。首先容易证明,\(V/W\)在\(\mathscr{A}\)上的诱导变换也是幂零变换,由归纳假设,它有如式(14)的直和分解。且由上一篇的结论我们知道,陪集的代表元和\(W\)的基正好是\(V\)一组完整的基,故有式(15)成立。

\[\left<\mathscr{A}^{s_1-1}\alpha_1+W,\cdots,\alpha_1+W\right>\oplus\cdots\oplus\left<\mathscr{A}^{s_t-1}\alpha_t+W,\cdots,\alpha_t+W\right>\tag{14}\]

\[V=W\oplus U,\quad U=\left<\mathscr{A}^{s_1-1}\alpha_1,\cdots,\alpha_1,\cdots,\mathscr{A}^{s_t-1}\alpha_t,\cdots,\alpha_t\right>\tag{15}\]

  由于式(14)中每个子集在诱导映射下都是强循环子空间,故有\(\mathscr{A}^{s_i}\alpha_i\in W\)。考察它们的相关性,设\(k_1\mathscr{A}^{s_1}\alpha_1+\cdots+k_t\mathscr{A}^{s_t}\alpha_t=0\),即有式(16)成立,故\(\beta\in W\),而显然\(\beta\in U\)。由式(15)知\(\beta=0\),所以\(k_i=0\),\(\mathscr{A}^{s_i}\alpha_i\)线性无关。

\[\mathscr{A}\beta=0,\quad \beta=k_1\mathscr{A}^{s_1-1}\alpha_1+\cdots+k_t\mathscr{A}^{s_t-1}\alpha_t\tag{16}\]

  将\(\mathscr{A}^{s_i}\alpha_i\)扩展为\(W\)的一组基\(\mathscr{A}^{s_1}\alpha_1,\cdots,\mathscr{A}^{s_t}\alpha_t,\gamma_1,\cdots,\gamma_r\),考虑到\(\left<\mathscr{A}^{s_i}\alpha_i,\cdots,\alpha_i\right>\)和\(\left<\gamma_j\right>\)都是强循环子空间,故\(V\)可以分解为如式(17)强循环子空间的直和。更一般地描述为公式(18)(19),其中每个强循环子空间的阶数\(s_i+1\)不大于幂零变换的次数\(m\)。

\[V=\left<\mathscr{A}^{s_1}\alpha_1,\cdots,\alpha_1\right>\oplus\cdots\oplus\left<\mathscr{A}^{s_t}\alpha_t,\cdots,\alpha_t\right>\oplus\left<\gamma_1\right>\oplus\cdots\oplus\left<\gamma_r\right>\tag{17}\]

\[V=\left<\mathscr{A}^{s_1}\alpha_1,\cdots,\alpha_1\right>\oplus\cdots\oplus\left<\mathscr{A}^{s_l}\alpha_l,\cdots,\alpha_l\right>\tag{18}\]

\[l= \dim{(\text{Ker}\,\mathscr{A})}=n-\text{rank}\,\mathscr{A}\tag{19}\]

  进一步,根据\(J_n\)的特点,我们其实还可以具体求得\(k(1\leqslant k\leqslant m)\)阶循环子空间的个数\(N(k)\)。首先显然有公式(20)的系列等式成立,通过简单的计算可以得到公式(21),这个公式说明了幂零矩阵分解得到的循环子空间的个数和次数都是确定的,也可以说这种分解是唯一的。

\[\text{rank}\,\mathscr{A}^0=N(1)\cdot 1+N(2)\cdot 2+\cdots+N(m)\cdot m\\\text{rank}\,\mathscr{A}^1=N(2)\cdot 1+N(3)\cdot 2+\cdots+N(m)\cdot (m-1)\\\text{rank}\,\mathscr{A}^2=N(3)\cdot 1+N(4)\cdot 2+\cdots+N(m)\cdot (m-2)\\\cdots\quad\cdots\tag{20}\]

\[N(k)=\text{rank}\,\mathscr{A}^{k-1}+\text{rank}\,\mathscr{A}^k-2\,\text{rank}\,\mathscr{A}^{k+1}\tag{21}\]

4.  Jordan标准型及其计算

4.1 Jordan标准型

  现在回到线性空间\(V\)在一般线性变换\(\mathscr{A}\)下的分解,前面已经知道,它可以按照特征值分解为几个根子空间\(W_{\lambda_i}\),而根子空间在变换\(\mathscr{A}-\lambda_i\mathscr{I}\)下又是幂零变换。幂零变换的分解上面也彻底解决,结合这两种分解容易知道,线性变换\(\mathscr{A}\)的矩阵相似于如下矩阵。其中对角线都是特征值,每个特征值的个数正是它的代数重数,去掉对角线后就是对应幂零变换的分解。

\[A\sim \begin{bmatrix}J_{n_{11}}(\lambda_1)&&&&&&\\&\ddots&&&&&\\&&J_{n_{1k_1}}(\lambda_1)&&&&\\&&&\ddots&&&\\&&&&J_{n_{s1}}(\lambda_s)&&\\&&&&&\ddots&\\&&&&&&J_{n_{sk_s}}(\lambda_s)\end{bmatrix},\quad J_n(\lambda)=\begin{bmatrix}\lambda&1&&\\&\ddots&\ddots&\\&&\ddots&1\\&&&\lambda\end{bmatrix}_{n\times n}\tag{21}\]

  这个矩阵称为Jordan标准型,其中每一个矩阵块\(J_n(\lambda)\)也叫Jordan块。不过要注意,我们讨论根子空间的完全分解时,是在代数闭域(复数域)中进行的,所以只能说任何矩阵在代数闭域中相似于一个Jordan标准型。但其实对具体的矩阵,这个条件可以弱化为:域是变换的特征多项式的正规扩域(在域中可完全分解)。

4.2 \(\lambda\)-矩阵和初等因子

  那么具体如何求Jordan标准型呢?只需先求得所有特征值,再利用公式(21)求每个Jordan块的阶数,具体过程就不赘述了。这个方法的计算复杂度较高,我们需要研究别的方法。通过结论我们已经知道,Jordan标准型由特征值和每个Jordan块的阶数\(n_{ik_j}\)完全决定,这些参数就是矩阵相似意义下的全系不变量。为了求得标准型,需要设计一个全系不变量,它包含了所有这些参数。

  现在能想到的最接近的量就是特征多项式(10)了,它包含了所有特征值和每个特征值的代数重数,要想得到更完整的参数,我们不妨把目光放到特征多项式的源头上:特征矩阵\(\lambda I-A\)。为此先讨论更一般的、以域\(F\)上的多项式\(f(\lambda)\)为元素的矩阵\(A(\lambda)\),并称之为\(\lambda\)-矩阵。这样的矩阵同样可以定义它的秩和逆矩阵,只不过逆矩阵只有在其行列式为常数时才存在。

  \(\lambda\)-矩阵同样可以进行初等变换并定义初等矩阵:\(P(i,j),P(i,j(f(\lambda))),P(i(k))\),但要注意,为了使初等变换可逆,每一行(列)只允许乘以非零常数\(k\in F\)。在抽象代数中我们知道,域上多项式环是一个欧式环,其上可以定义最大公约数(首项系数为\(1\)),还可以进行辗转相除法。设\(A(\lambda)\)非零元素的最大公约数为\(d_1(\lambda)\),可以证明初等变换能把\(A(\lambda)\)转换成\(\begin{bmatrix}d_1(\lambda)&0\\0&A_1(\lambda)\end{bmatrix}\),其中\(A_1(\lambda)\)的元素都是\(d_1(\lambda)\)的倍数。继续这个过程可以将\(A(\lambda)\)转换为如下Smith标准型,其中\(r\)显然为\(A(\lambda)\)的秩。

\[\begin{bmatrix}d_1(\lambda)&&&\\&\ddots&&\\&&d_r(\lambda)&\\&&&0\end{bmatrix},\quad d_i(\lambda)\mid d_{i+1}(\lambda)\tag{22}\]

  类似于一般矩阵,我们将可以通过初等变换互相转换的\(\lambda\)-矩阵称为相抵的,所以任何\(\lambda\)-矩阵都相抵于式(22)中的矩阵。另外显然可逆\(\lambda\)-矩阵相抵于单位矩阵,也就是说可逆\(\lambda\)-矩阵可以分解为一系列初等矩阵相乘,这样\(A(\lambda)\)和\(B(\lambda)\)相抵其实等价于:存在可逆\(\lambda\)-矩阵\(P(\lambda),Q(\lambda)\),使得公式(23)成立。

\[B(\lambda)=P(\lambda)A(\lambda)Q(\lambda)\tag{23}\]

  对于一般矩阵的相抵,秩\(r\)完全确定了一个等价类,它是相抵矩阵的全系不变量。由于初等变换不改变元素的最大公约数,故式(22)中的\(d_i(\lambda)\)其实是确定的,它们也是相抵\(\lambda\)-矩阵的全系不变量,被称为\(\lambda\)-矩阵的不变因子。现在回到特征矩阵\(A(\lambda)=\lambda I-A_n\),并设\(A\)的元素在代数闭域\(F\)中,由于其行列式\(\varphi(\lambda)\)非零,所以\(A(\lambda)\)是满秩的。由于相抵\(\lambda\)-矩阵的行列式不变,故有式(24)成立。

\[\varphi(\lambda)=d_1(\lambda)d_2(\lambda)\cdots d_n(\lambda),\quad d_i(\lambda)=(\lambda-\lambda_1)^{e_{i1}}\cdots (\lambda-\lambda_s)^{e_{is}}\tag{24}\]

  首先显然有(25)左式成立(\(t_i\)为\(\lambda_i\)的代数重数),再由\(d_i(\lambda)\mid d_{i+1}(\lambda)\)可知还有(25)右式成立。由于\(d_i(\lambda)\)是全系不变量,故所有\((\lambda-\lambda_j)^{e_{ij}}\)其实是完全确定的,其中不为\(1\)那些项被称为特征矩阵的初等因子。显然所有初等因子组成的集合也是特征矩阵的全系不变量,被称为初等因子组

\[t_i=e_{1i}+e_{2i}+\cdots+e_{ni},\quad e_{1i}\leqslant e_{2i}\leqslant\cdots\leqslant e_{ni}\tag{25}\]

4.3 相似与相抵

  现在你可能眼前一亮,初等因子和Jordan块有什么关系?它们是不是一一对应的?我们费这么大劲讨论初等因子,当然是有目的的。正如你所料,它们之间存在着对应关系,我们需要两个结论来得到这样的关系。

  先来看看Jordan标准型的初等因子是什么,讨论中只需进行简单的初等变换即可,过程就不细说了。第一步要证明Jordan块\(J_n(\lambda_0)\)的初等因子只有\((\lambda-\lambda_0)^n\),第二步证明分块对角矩阵\(\begin{bmatrix}A&\\&B\end{bmatrix}\)的初等因子是\(A,B\)初等因子之并,第三步就推导出Jordan标准型(23)的初等因子正是所有Jordan块的初等因子。

  这样一来,要求矩阵\(A\)的Jordan标准型\(J\),只需求\(J\)的初等因子。但我们手上只有\(A\),并且知道它与\(J\)相似,你自然想问,\(\lambda I -A\)和\(\lambda I -J\)的初等因子有什么关系呢?更一般地,设\(A\sim B\),即存在可逆矩阵\(P\),使得\(A=PBP^{-1}\)。那么有\(\lambda I-A=\lambda I-PBP^{-1}=P(\lambda I-B)P^{-1}\),从而\(\lambda I-A\)和\(\lambda I-B\)相抵。这就说明了相似矩阵的特征矩阵是相抵的,对应的初等因子也相同。以上结论就将求解矩阵\(A\)的Jordan标准型的问题,转化成了求\(\lambda I -A\)初等因子的问题。

  其实反过来,如果\(\lambda I-A\)和\(\lambda I-B\)相抵,它们的初等因子相同,从而\(A,B\)的Jordan标准型相同,这就有\(A\sim B\)。所以矩阵相似和特征矩阵相抵是等价的,初等因子是相似或相抵的全系不变量。这里再介绍一个证明必要性的方法,它对任何数域都成立,证明的步骤还可以用来求过渡矩阵。设存在可逆\(\lambda\)-矩阵\(P(\lambda),Q(\lambda)\),使得\(\lambda I-A=P(\lambda)(\lambda I-B)Q(\lambda)\),即\((\lambda I-A)Q^{-1}(\lambda)=P(\lambda)(\lambda I-B)=\lambda P(\lambda)-P(\lambda)B\)。根据公式(1)的结论将\(A\)带入等式得到式(26),这也证明了\(A\sim B\),且过渡矩阵为\(P(\lambda)\)。

\[A=P(A)\,B\,P^{-1}(A)\tag{26}\]

   求证:复方阵\(A\)相似于它的转置\(A\'\),并求过渡矩阵;

   利用Jordan标准型求复方阵的最小多项式。

5. 实方阵的标准型

  相对来说,实方阵其实更常用,虽然它不一定能有Jordan标准型,但我们还是可以得到一些有用的结论。当然实方阵只是复方阵的一个特例,充分利用复方阵的已有结论会简化很多讨论。先来看两个在复数域上相似的实方阵\(A,B\),则存在实方阵\(P,Q\)使得下式成立左边,化简得到\(AP=PB,AQ=QB\),并进而有右边成立。

\[A=(P+iQ)\,B\,(P+iQ)^{-1}\quad\Leftrightarrow\quad A(P+\lambda Q)=(P+\lambda Q)B\tag{27}\]

  设\(\varphi(\lambda)=|P+\lambda Q|\),因为\(\varphi(i)\ne 0\),故\(\varphi(\lambda)\)非零。从而必定有实数\(\lambda_0\)使得\(\varphi(\lambda_0)\ne 0\),这时\(P+\lambda_0Q\)可逆,从而有式(28)成立。这就说明了\(A,B\)是实相似的,反之如果\(A,B\)实相似,它们当然复相似,所以实方阵的实相似和复相似是等价的。这个结论告诉我们,想要讨论式方阵的“标准”实相似方阵,其实只需要找到与Jordan标准型复相似的“标准”实方阵。

\[A=(P+\lambda_0Q)\,B\,(P+\lambda_0Q)^{-1}\tag{28}\]

  我们知道实系数多项式在实数域的因式最多为二次,从而实方阵的特征矩阵在实数域上的初等因子为\((\lambda-\lambda_0)^n\)或者为\((\lambda^2+a\lambda+b)^n\)。对于后者,它在复数域中表现为成对出现的初等因子\((\lambda-\lambda_0)^n,(\lambda-\bar{\lambda}_0)^n\)。为了把这样的初等因子再合并成实数域上的\((\lambda^2+a\lambda+b)^n\),我们自然考虑将\((\lambda-\lambda_0)^n,(\lambda-\bar{\lambda}_0)^n\)的Jordan块进行合并,也就是求与\(A=\begin{bmatrix}J_n(\lambda_0)&\\&J_n(\bar{\lambda}_0)\end{bmatrix}\)相似的实方阵。

  如式(29)所示,其实Jordan块还有另一个结构比较好的相似矩阵,这个矩阵使得初等变换很方便。它使得对\(A\)相似矩阵的讨论,等价于对\(B=\begin{bmatrix}\lambda_0M&\\&\bar{\lambda}_0M\end{bmatrix}\)相似矩阵的讨论。

\[\begin{bmatrix}1&&&\\&\lambda^{-1}&&\\&&\ddots&\\&&&\lambda^{-(n-1)}\end{bmatrix}\begin{bmatrix}\lambda&1&&\\&\ddots&\ddots&\\&&\ddots&1\\&&&\lambda\end{bmatrix}\begin{bmatrix}1&&&\\&\lambda&&\\&&\ddots&\\&&&\lambda^{(n-1)}\end{bmatrix}=\lambda\begin{bmatrix}1&1&&\\&\ddots&\ddots&\\&&\ddots&1\\&&&1\end{bmatrix}=\lambda M_n\tag{29}\]

  设\(\lambda_0=\rho(\cos\theta+i\sin\theta)\),\(B\)的初等因子为\(\lambda^2-2\rho\cos\theta\lambda+\rho^2=(\lambda-\rho\cos\theta)^2+(\rho\sin\theta)^2\),容易构造出它也是\(C=\begin{bmatrix}\rho\cos\theta&\rho\sin\theta\\-\rho\sin\theta&\rho\cos\theta\end{bmatrix}\)的初等因子。这样就有\(B\sim C\),进而我们就得到了与\(A\)相似的实方阵(30),最终也就得到实方阵的标准型。

\[\begin{bmatrix}J_n(\lambda_0)&\\&J_n(\bar{\lambda}_0)\end{bmatrix}\sim\rho\begin{bmatrix}\cos\theta M_n&\sin\theta M_n\\-\sin\theta M_n&\cos\theta M_n\end{bmatrix}\tag{30}\]