之前指出,矩阵的特征值和特征向量蕴含在相似对角化 A = S − 1 Λ S \boldsymbol{A}=\boldsymbol{S}^{-1} \boldsymbol{\Lambda} \boldsymbol{S} A=S−1ΛS中
下面将看到,“相似对角化”是相似矩阵 A ∼ B \mathbf A \sim \mathbf B A∼B的特例,且一系列相似矩阵都具有相同特征值
之前说过,
A
\mathbf A
A与
B
\mathbf B
B互为相似矩阵,即
A
∼
B
\mathbf A \sim \mathbf B
A∼B,则它们满足关系
B
=
M
−
1
A
M
\mathbf B=\mathbf {M^{-1}AM}
B=M−1AM
其中,
M
\mathbf M
M称为过渡矩阵,它表现了基与基之间的一个可逆线性变换
其几何意义是,相似矩阵 A \mathbf A A与 B \mathbf B B是同一个线性变换,只不过它们作用于从不同的坐标系(依赖于不同的基向量)
相似矩阵的特点是:
证明:相似矩阵具有相同的特征值,且特征向量之间也有一定联系
A \mathbf A A与 B \mathbf B B互为相似矩阵,则 B = M − 1 A M \mathbf B=\mathbf {M^{-1}AM} B=M−1AM
A \mathbf A A的特征值: A x = λ x \mathbf A\boldsymbol x=\lambda\boldsymbol x Ax=λx
稍作变形,得到 A x = A M M − 1 x = λ x \mathbf A\boldsymbol x=\mathbf A\mathbf M\mathbf M^{-1}\boldsymbol x=\lambda\boldsymbol x Ax=AMM−1x=λx;
左乘 M − 1 \mathbf M^{-1} M−1得到 ( M − 1 A M ) M − 1 x = λ M − 1 x (\mathbf M^{-1}\mathbf A\mathbf M)\mathbf M^{-1}\boldsymbol x=\lambda\mathbf M^{-1}\boldsymbol x (M−1AM)M−1x=λM−1x
B \mathbf B B的特征值: B ( M − 1 x ) = λ ( M − 1 x ) \mathbf B(\mathbf M^{-1}\boldsymbol x)=\lambda(\mathbf M^{-1}\boldsymbol x) B(M−1x)=λ(M−1x)
证明:由于 B = M − 1 A M \mathbf B=\mathbf {M^{-1}AM} B=M−1AM,则 B k = ( M − 1 A M ) K = M − 1 A K M \mathbf B^k=(\mathbf {M^{-1}AM})^K=\mathbf {M^{-1}A^KM} Bk=(M−1AM)K=M−1AKM
这就是说 A k ∼ B k \mathbf A^k \sim \mathbf B^k Ak∼Bk
矩阵的特征值情况不同,其具有的相似矩阵不同,下面分情况讨论
一般而言,矩阵 A \mathbf A A具有一系列(大量)相似矩阵:任意用一个可逆矩阵 M \mathbf M M就能得到一个相似矩阵 M − 1 A M = B \mathbf {M^{-1}AM}=\mathbf B M−1AM=B
特征值互不相同时, A \mathbf A A必然具有n个线性无关的特征向量(从而保证下方的特征向量矩阵 S \mathbf S S可逆),则此时可以对角化 A = S − 1 Λ S \mathbf A=\mathbf S^{-1}\mathbf \Lambda\mathbf S A=S−1ΛS其中 Λ \mathbf \Lambda Λ为 A \mathbf A A的特征值、 S \mathbf S S为特征向量矩阵
可见:
例如,对于 A = [ 2 1 1 2 ] \boldsymbol{A}=\left[
\right] A=[2112]" role="presentation" style="position: relative;"> 2 1 1 2
取 M = [ − 2 2 2 2 2 2 2 2 ] \mathbf M=\left[\right] M=[−22222222],可得 M − 1 A M = Λ = [ 3 0 0 1 ] \mathbf {M^{-1}AM}=\boldsymbol{\Lambda}=\left[" role="presentation" style="position: relative;"> − 2 2 2 2 2 2 2 2 \right] M−1AM=Λ=[3001]" role="presentation" style="position: relative;"> 3 0 0 1
取 M = [ 1 4 0 1 ] \mathbf M=\left[\right] M=[1041],可得 M − 1 A M = B = [ − 2 − 15 1 6 ] \mathbf {M^{-1}AM}=\boldsymbol{B}=\left[" role="presentation" style="position: relative;"> 1 4 0 1 \right] M−1AM=B=[−21−156]" role="presentation" style="position: relative;"> − 2 − 15 1 6
A
\mathbf A
A具有重复的特征值时,则可能无法对角化(关键在于是否有n个线性无关的特征向量)
此时,又要分为两种情况讨论:
例如
A
=
[
4
0
0
4
]
\mathbf A={\left[
例如
A
=
[
4
1
0
4
]
\mathbf A={\left[
另一理解:假设可以对角化,那么其相似矩阵为特征值矩阵,即上面1中的矩阵 4 I 4\mathbf I 4I,而上面说过 4 I 4\mathbf I 4I只与自己相似
注意,对于这种不能实现对角化的情况,我们在一系列相似矩阵中,挑选出最简洁、最接近对角矩阵的那一个,称为若尔当标准型Jordan form;
例如,这里有一系列相似矩阵 [ 4 10 0 4 ] {\left[
\right]} [40104]、 [ 4 1 0 6 0 4 ] {\left[" role="presentation" style="position: relative;"> 4 10 0 4 \right]} [401064]等,其中的 [ 4 1 0 4 ] {\left[" role="presentation" style="position: relative;"> 4 10 6 0 4 \right]} [4014]若尔当标准型" role="presentation" style="position: relative;"> 4 1 0 4
另外,还可以列举更多上述的“一系列相似矩阵”:根据相似不变量“迹”和“行列式”,只要矩阵的迹为8,行列式为16,就是这里的相似矩阵
例如 [ 5 1 − 1 3 ] , [ 4 0 17 4 ] , [ a ∗ ∗ 8 − a ] … … \left[\right], \left[" role="presentation" style="position: relative;"> 5 1 − 1 3 \right], \left[" role="presentation" style="position: relative;"> 4 0 17 4 \right] \ldots \ldots [5−113],[41704],[a∗∗8−a]……它们都不能对角化(因为若可以对角化则按照特征值可知结果为4I,而4I只与自己相似)" role="presentation" style="position: relative;"> a ∗ ∗ 8 − a
根据上面所述,矩阵可以分为两种类型:
一般的,任意n阶矩阵 A \mathbf A A一定相似于一个若尔当矩阵Jordan matrix J \mathbf J J,该矩阵称为 A \mathbf A A的若尔当标准型
例如,对于 A = [ 0 1 7 0 0 0 1 0 0 0 0 0 0 0 0 0 ] \boldsymbol{A}=\left[
\right] A=⎣ ⎡0000100071000000⎦ ⎤和 C = [ 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 ] \boldsymbol{C} =\left[" role="presentation" style="position: relative;"> 0 1 7 0 0 0 1 0 0 0 0 0 0 0 0 0 \right] C=⎣ ⎡0000100000000010⎦ ⎤," role="presentation" style="position: relative;"> 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0
虽然两个矩阵都具有四重特征值 λ 1 = λ 2 = λ 3 = λ 4 = 0 \lambda_{1}=\lambda_{2}=\lambda_{3}=\lambda_{4}=0 λ1=λ2=λ3=λ4=0、都只有两个线性无关的特征向量(求解 A x = 0 x \mathbf A\boldsymbol x=0\boldsymbol x Ax=0x,由于矩阵的秩 r = 2 r=2 r=2,故零空间只有 n − r = 4 − 2 = 2 n-r=4-2=2 n−r=4−2=2个线性无关的基向量),但是两个矩阵不相似,原因如下:
A \boldsymbol{A} A的若尔当标准型为 [ 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 ] \left[\right] ⎣ ⎡0000100001000000⎦ ⎤,而 C \boldsymbol{C} C的若尔当标准型为它本身 [ 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 ] \left[" role="presentation" style="position: relative;"> 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 \right] ⎣ ⎡0000100000000010⎦ ⎤," role="presentation" style="position: relative;"> 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0
两个若尔当标准型不同(一个是三阶若尔当块+一阶若尔当块,一个是两个二阶若尔当块),故两个矩阵不相似
总结:
对于任意的矩阵,虽然并不一定能对角化并得到一个对角矩阵 Λ \mathbf \Lambda Λ作为其相似矩阵(仅当有n个线性无关特征向量时可以这样做,对应于 A = S − 1 Λ S \mathbf A=\mathbf S^{-1}\mathbf \Lambda\mathbf S A=S−1ΛS中 S \mathbf S S可逆);
但是若尔当标准型能对(不可对角化的)任意矩阵完成近似“对角化”的处理
然而要注意,若尔当标准型在代数上的理论意义大于实际应用意义,因为一般的矩阵很难化简为若尔当标准型(这依赖于多个特征值严格相等,即必须准确确定所有特征值和矩阵的秩,矩阵元素稍微改变特征值就会改变,对于数值计算而言这并不是件好事)
这也是为什么在Jordan标准型
A
=
M
−
1
J
M
\mathbf A=\mathbf M^{-1}\mathbf J\mathbf M
A=M−1JM中,很少关注如何求解相似变换矩阵
M
\mathbf M
M
对于矩阵可以对角化的情况,Jordan标准型是对角矩阵,此时求解出A的全部特征值和特征向量(就是做对角化),即可得到 A = S − 1 Λ S \mathbf A=\mathbf S^{-1}\mathbf \Lambda\mathbf S A=S−1ΛS,其中Jordan标准型 J = Λ \mathbf J=\mathbf \Lambda J=Λ,相似变换矩阵 M = S \mathbf M=\mathbf S M=S
对于一般情形可以解矩阵方程(但计算量很大),也可以把A和I写成分块矩阵的形式(A在上,I在下),对A进行“配套”的初等行列变换,I进行相应的初等列变换,那么当A化为J时,I就化为了S。(参考:袁晖坪.矩阵的Jordan标准型及其相似变换矩阵)
reference:MIT—线性代数笔记28 相似矩阵和若尔当标准型