线性代数学习笔记9-3：相似矩阵、对角矩阵是特殊的相似矩阵、若尔当标准型Jordan form

之前指出，矩阵的特征值和特征向量蕴含在相似对角化 $\boldsymbol{A}=\boldsymbol{S}^{-1} \boldsymbol{\Lambda} \boldsymbol{S}$ 中

下面将看到，“相似对角化”是相似矩阵 $\mathbf A \sim \mathbf B$ 的特例，且一系列相似矩阵都具有相同特征值

当 $\mathbf A$ 有n个无关特征向量，存在一个相似矩阵为对角阵，可以相似对角化 $\boldsymbol{A}=\boldsymbol{S}^{-1} \boldsymbol{\Lambda} \boldsymbol{S}$
当 $\mathbf A$ 没有n个无关特征向量，相似矩阵中只有Jordan标准型（接近对角阵，其中每个Jordan块对应一个无关特征向量），不能相似对角化，只能做近似“对角化”的处理

相似矩阵 Similar matrices

之前说过， $\mathbf A$ 与 $\mathbf B$ 互为相似矩阵，即 $\mathbf A \sim \mathbf B$ ，则它们满足关系 $\mathbf B=\mathbf {M^{-1}AM}$
其中， $\mathbf M$ 称为过渡矩阵，它表现了基与基之间的一个可逆线性变换

其几何意义是，相似矩阵 $\mathbf A$ 与 $\mathbf B$ 是同一个线性变换，只不过它们作用于从不同的坐标系（依赖于不同的基向量）

相似矩阵的特点是：

大多数情况下，矩阵 $\mathbf A$ 具有一系列（大量）相似矩阵：任意用一个可逆矩阵 $\mathbf M$ 就能得到一个相似矩阵 $\mathbf {M^{-1}AM}=\mathbf B$
一系列相似矩阵具有相同的特征值，线性无关的特征向量个数相等，且特征向量之间也有一定联系
具体而言， $\mathbf A$ 的特征值和特征向量为 $\lambda$ 和 $\boldsymbol x$ ，则 $\mathbf B$ 的特征值和特征向量为 $\lambda$ 和 $\mathbf M^{-1}\boldsymbol x$

证明：相似矩阵具有相同的特征值，且特征向量之间也有一定联系
$\mathbf A$ 与 $\mathbf B$ 互为相似矩阵，则 $\mathbf B=\mathbf {M^{-1}AM}$
$\mathbf A$ 的特征值： $\mathbf A\boldsymbol x=\lambda\boldsymbol x$
稍作变形，得到 $\mathbf A\boldsymbol x=\mathbf A\mathbf M\mathbf M^{-1}\boldsymbol x=\lambda\boldsymbol x$ ；
左乘 $\mathbf M^{-1}$ 得到 $(\mathbf M^{-1}\mathbf A\mathbf M)\mathbf M^{-1}\boldsymbol x=\lambda\mathbf M^{-1}\boldsymbol x$
$\mathbf B$ 的特征值： $\mathbf B(\mathbf M^{-1}\boldsymbol x)=\lambda(\mathbf M^{-1}\boldsymbol x)$

若 $\mathbf A \sim \mathbf B$ ，则 $\mathbf A^k \sim \mathbf B^k$

证明：由于 $\mathbf B=\mathbf {M^{-1}AM}$ ，则 $\mathbf B^k=(\mathbf {M^{-1}AM})^K=\mathbf {M^{-1}A^KM}$
这就是说 $\mathbf A^k \sim \mathbf B^k$

特征值对相似矩阵的影响

矩阵的特征值情况不同，其具有的相似矩阵不同，下面分情况讨论

特征值互不相同（对角矩阵是特殊的相似矩阵）

一般而言，矩阵 $\mathbf A$ 具有一系列（大量）相似矩阵：任意用一个可逆矩阵 $\mathbf M$ 就能得到一个相似矩阵 $\mathbf {M^{-1}AM}=\mathbf B$

特征值互不相同时， $\mathbf A$ 必然具有n个线性无关的特征向量（从而保证下方的特征向量矩阵 $\mathbf S$ 可逆），则此时可以对角化 $\mathbf A=\mathbf S^{-1}\mathbf \Lambda\mathbf S$ 其中 $\mathbf \Lambda$ 为 $\mathbf A$ 的特征值、 $\mathbf S$ 为特征向量矩阵

可见：

若矩阵 $\mathbf A$ 特征值互不相同，将会得到一个特殊的相似矩阵： $\mathbf A \sim 对角阵\mathbf \Lambda$
这相当于 $\mathbf {M^{-1}AM}=\mathbf B$ 中，取 $\mathbf M=\mathbf S^{-1}$ 的情况，得到 $\mathbf S\mathbf A\mathbf S^{-1}=\mathbf \Lambda$
当然， $\mathbf A$ 也有其他的相似矩阵：即 $\mathbf {M^{-1}AM}=\mathbf B$ 取其他 $\mathbf M$ 的情况
在 $\mathbf A$ 的一系列相似矩阵中，对角阵 $\mathbf \Lambda$ 是最简洁的一个

例如，对于 $\boldsymbol{A}=\left[$
$\begin{array}{ll} 2 & 1 \\ 1 & 2 \end{array}$ \right] $A = [2112]$
取 $\begin{array}{ll} - \frac{\sqrt{2}}{2} & \frac{\sqrt{2}}{2} \\ \frac{\sqrt{2}}{2} & \frac{\sqrt{2}}{2} \end{array}$ ，可得 $\begin{array}{ll} 3 & 0 \\ 0 & 1 \end{array}$
取 $\begin{array}{ll} 1 & 4 \\ 0 & 1 \end{array}$ ，可得 $\begin{array}{cc} - 2 & - 15 \\ 1 & 6 \end{array}$

重复的特征值

$\mathbf A$ 具有重复的特征值时，则可能无法对角化（关键在于是否有n个线性无关的特征向量）
此时，又要分为两种情况讨论：

1. 有n个线性无关特征向量，可以对角化，但唯一的相似矩阵是它本身

例如 $\mathbf A={\left[$

\begin{array}{ll} 4 & 0 \\ 0 & 4 \end{array}

\right]}

A = [4004]

，有两个线性无关特征向量

可以对角化： $\mathbf A=\mathbf S^{-1}\mathbf \Lambda\mathbf S$ ，其中 $\mathbf \Lambda=\mathbf A$ ， $\mathbf S=\mathbf I$ ，也就是说，特征向量为 $\begin{array}{ll} 1 \\ 0 \end{array}$ 和 $\begin{array}{ll} 0 \\ 1 \end{array}$
没有一系列相似矩阵，唯一的相似矩阵是它本身
因为矩阵 $\mathbf A=4\mathbf I$ ，无论如何取，相似矩阵都得到它本身 $\begin{array}{ll} 4 & 0 \\ 0 & 4 \end{array}$

2.无法对角化，有一系列相似矩阵，但相似矩阵中没有对角阵，只有若尔当标准型

例如 $\mathbf A={\left[$

\begin{array}{ll} 4 & 1 \\ 0 & 4 \end{array}

\right]}

A = [4014]

，只有一个线性无关的特征向量

由于只有一个线性无关的特征向量， $\mathbf A$ 不能对角化

另一理解：假设可以对角化，那么其相似矩阵为特征值矩阵，即上面1中的矩阵 $4\mathbf I$ ，而上面说过 $4\mathbf I$ 只与自己相似

因此，虽然 $\mathbf A$ 有一系列的相似矩阵，但是所有相似矩阵中，“最好”的、最接近对角阵的（但无法真正对角化）一个就是 $\begin{array}{ll} 4 & 1 \\ 0 & 4 \end{array}$

注意，对于这种不能实现对角化的情况，我们在一系列相似矩阵中，挑选出最简洁、最接近对角矩阵的那一个，称为若尔当标准型Jordan form；

例如，这里有一系列相似矩阵 ${\left[$
$\begin{array}{ll} 4 & 10 \\ 0 & 4 \end{array}$ \right]} $[40104]$ 、 $\begin{array}{ll} 4 & 10^{6} \\ 0 & 4 \end{array}$ 等，其中的 $\begin{array}{ll} 4 & 1 \\ 0 & 4 \end{array}$ 若尔当标准型

另外，还可以列举更多上述的“一系列相似矩阵”：根据相似不变量“迹”和“行列式”，只要矩阵的迹为8，行列式为16，就是这里的相似矩阵
例如 $\begin{array}{cc} 5 & 1 \\ - 1 & 3 \end{array}$ 它们都不能对角化（因为若可以对角化则按照特征值可知结果为4I，而4I只与自己相似）

若尔当标准型 Jordan form

根据上面所述，矩阵可以分为两种类型：

如果矩阵 $\mathbf A$ 有n个线性无关的特征向量（可能会有重复特征值），可以对角化，那么其相似矩阵中最简洁的一个是对角矩阵，获取方式就是矩阵的对角化操作 $\mathbf A=\mathbf S^{-1}\mathbf \Lambda\mathbf S$ （即：求特征值和特征向量）
如果矩阵 $\mathbf A$ 没有n个线性无关的特征向量（必然有重特征值），不能对角化，其相似矩阵中最简洁、“最接近对角矩阵”的那一个，称为若尔当标准型 Jordan form
也可以说，若尔当标准型就是对不可对角化的矩阵完成近似“对角化”的处理

一般的，任意n阶矩阵 $\mathbf A$ 一定相似于一个若尔当矩阵Jordan matrix $\mathbf J$ ，该矩阵称为 $\mathbf A$ 的若尔当标准型

若尔当矩阵 $\mathbf J$ 由多个若尔当块构成 $\begin{array}{cccc} J_{1} & 0 & \dots & 0 \\ 0 & J_{2} & \dots & 0 \\ ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & J_{d} \end{array}$
其中，若尔当块形如 $\begin{array}{ccccc} λ_{i} & 1 & 0 & \dots & 0 \\ 0 & λ_{i} & 1 & ⋱ & ⋮ \\ 0 & 0 & ⋱ & ⋱ & 0 \\ ⋮ & ⋱ & ⋱ & 1 \\ 0 & 0 & \dots & 0 & λ_{i} \end{array}$ ，对角线上全是重特征值 $\lambda_{i}$ ，上对角线全是1，每个若尔当块对应一个（线性无关的）特征向量（也就是说，有多少个线性无关特征向量，就有多少个若尔当块）
实际上，对于可以对角化的矩阵，其若尔当标准型就是对角矩阵 $\mathbf \Lambda$ ，对应于「所有若尔当块都为一阶」的特殊情况（即：有n个线性无关特征向量）
而如果出现重特征值，则特征向量个数变少（若尔当块数量变少），这就是更一般的情况
两个矩阵，（即使特征值相同、特征向量个数相等），其若尔当标准型（中的若尔当块）完全相同时，这两个矩阵才是相似的

例如，对于 $\boldsymbol{A}=\left[$
$\begin{array}{llll} 0 & 1 & 7 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 \end{array}$ \right] $A = ⎣ ⎡ 0000100071000000 ⎦ ⎤$ 和 $\begin{array}{llll} 0 & 1 & 0 & 0 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 0 \end{array}$ ,
虽然两个矩阵都具有四重特征值 $\lambda_{1}=\lambda_{2}=\lambda_{3}=\lambda_{4}=0$ 、都只有两个线性无关的特征向量（求解 $\mathbf A\boldsymbol x=0\boldsymbol x$ ，由于矩阵的秩 $r = 2$ ，故零空间只有 $n - r = 4 - 2 = 2$ 个线性无关的基向量），但是两个矩阵不相似，原因如下：
$\boldsymbol{A}$ 的若尔当标准型为 $\begin{array}{llll} 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 \end{array}$ ，而 $\boldsymbol{C}$ 的若尔当标准型为它本身 $\begin{array}{llll} 0 & 1 & 0 & 0 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 0 \end{array}$ ，
两个若尔当标准型不同（一个是三阶若尔当块+一阶若尔当块，一个是两个二阶若尔当块），故两个矩阵不相似

总结：

对于任意的矩阵，虽然并不一定能对角化并得到一个对角矩阵 $\mathbf \Lambda$ 作为其相似矩阵（仅当有n个线性无关特征向量时可以这样做，对应于 $\mathbf A=\mathbf S^{-1}\mathbf \Lambda\mathbf S$ 中 $\mathbf S$ 可逆）；
但是若尔当标准型能对（不可对角化的）任意矩阵完成近似“对角化”的处理
然而要注意，若尔当标准型在代数上的理论意义大于实际应用意义，因为一般的矩阵很难化简为若尔当标准型（这依赖于多个特征值严格相等，即必须准确确定所有特征值和矩阵的秩，矩阵元素稍微改变特征值就会改变，对于数值计算而言这并不是件好事）
这也是为什么在Jordan标准型 $\mathbf A=\mathbf M^{-1}\mathbf J\mathbf M$ 中，很少关注如何求解相似变换矩阵 $\mathbf M$

对于矩阵可以对角化的情况，Jordan标准型是对角矩阵，此时求解出A的全部特征值和特征向量（就是做对角化），即可得到 $\mathbf A=\mathbf S^{-1}\mathbf \Lambda\mathbf S$ ，其中Jordan标准型 $\mathbf J=\mathbf \Lambda$ ，相似变换矩阵 $\mathbf M=\mathbf S$
对于一般情形可以解矩阵方程（但计算量很大），也可以把A和I写成分块矩阵的形式（A在上，I在下），对A进行“配套”的初等行列变换，I进行相应的初等列变换，那么当A化为J时，I就化为了S。（参考：袁晖坪.矩阵的Jordan标准型及其相似变换矩阵）
reference：MIT—线性代数笔记28 相似矩阵和若尔当标准型

相关阅读:
Java | 多线程综合练习
高级二-十进制转换算法
minio拉取的时候报错了
从硬件缓存入门到并发编程三要素详解 Java中 volatile 、final 等关键字解析、单例模式案例
【linux命令讲解大全】099.Linux常用文件传输命令详解
哈希表的前置知识---二叉搜索树
离散化（保序）
899-900 案例：高亮显示，案例：王者荣耀手风琴效果（JQuery）
基于FreeBSD 8.0 Ports配置nginx+php+mysql高性能web平台【解决方案】
【Vue3】Props的使用详解

原文地址：https://blog.csdn.net/Insomnia_X/article/details/126633864