标量(scalar):数
向量(vector):一列数
x
=
[
x
1
x
2
.
.
.
x
n
]
x=
矩阵(matrix):二维数组
张量(tensor):超过二维的数组
转置(transpose)
主对角线(main diagonal)
广播(broadcasting):矩阵和向量相加过程中,复制向量的方式
C
=
A
+
b
C = A + b
C=A+b
[
1
2
3
4
5
6
7
8
9
]
+
[
1
2
3
]
=
[
1
2
3
4
5
6
7
8
9
]
+
[
1
2
3
1
2
3
1
2
3
]
=
[
2
4
6
5
7
9
8
10
12
]
重要公式
A ( B + C ) = A B + A C A(B+C) = AB + AC A(B+C)=AB+AC
A ( B C ) = ( A B ) C A(BC) = (AB)C A(BC)=(AB)C
A B ≠ B A AB \ne BA AB=BA
( A B ) T = B T A T (AB)^T = B^TA^T (AB)T=BTAT
x T y = ( x T y ) T = y T x x^Ty = (x^Ty)^T = y^Tx xTy=(xTy)T=yTx
线性方程组
A
x
=
b
Ax = b
Ax=b
其中
A
∈
R
m
∗
n
A \in ℝ^{m*n}
A∈Rm∗n是一个已知矩阵,
b
∈
R
m
b \in ℝ^{m}
b∈Rm是一个已知向量,
x
∈
R
n
x \in ℝ^{n}
x∈Rn是一个我们要求解的未知向量
矩阵逆(matrix inversion)
单位矩阵(identity matrix)
A
−
1
A
=
A
A
−
1
=
I
n
A^{-1}A = AA^{-1} = I_n
A−1A=AA−1=In
如果逆矩阵 A − 1 A^{-1} A−1存在,那么 A x = b Ax = b Ax=b肯定对于每一个向量 b b b恰好存在一个解
但是,对于方程组而言,对于向量 b b b的某些值,有可能不存在解,或者存在无限多个解
存在多于一个解但是少于无限多个解的情况是不可能发生的
线性组合(linear combination)
A
x
=
[
A
1
,
1
x
1
+
A
1
,
2
x
2
+
.
.
.
A
1
,
n
x
n
A
2
,
1
x
1
+
A
2
,
2
x
2
+
.
.
.
A
2
,
n
x
n
.
.
.
A
m
,
1
x
1
+
A
m
,
2
x
2
+
.
.
.
A
m
,
n
x
n
]
=
x
1
[
A
1
,
1
A
2
,
1
.
.
.
A
m
,
1
]
+
x
2
[
A
1
,
2
A
2
,
2
.
.
.
A
m
,
2
]
+
.
.
.
x
n
[
A
1
,
n
A
2
,
n
.
.
.
A
m
,
n
]
=
∑
i
=
1
n
x
i
A
:
,
i
Ax =
一组向量的生成子空间(span):原始向量线性组合后所能抵达的点的集合
确定 A x = b Ax=b Ax=b是否有解,相当于确定向量 b b b是否在 A A A列向量的生成子空间中
线性相关(linear dependence):一组向量中的任意一个向量都能表示成其他向量的线性组合
线性无关(linearly indepent):一组向量中的任意一个向量都不能表示成其他向量的线性组合
为使矩阵可逆,需要保证 A x = b Ax=b Ax=b对于每一个 b b b至多有一个解
奇异(singular)矩阵:一个列向量线性相关的方阵
范数(norm):将向量映射到非负值的函数
范数
L
p
L^p
Lp
∣
∣
x
∣
∣
p
=
(
∑
i
∣
x
i
∣
p
)
1
p
||x||_p = (\sum_{i} |x_i|^p)^{\frac{1}{p}}
∣∣x∣∣p=(i∑∣xi∣p)p1
其中,
p
∈
R
p \in ℝ
p∈R,
p
≥
1
p \geq 1
p≥1
向量 x x x的范数:从原点到点 x x x的距离
满足以下性质
f ( x ) = 0 ⇒ x = 0 f(x) = 0 \Rightarrow x = \mathbf{0} f(x)=0⇒x=0
f ( x + y ) ≤ f ( x ) + f ( y ) f(x+y) \leq f(x) + f(y) f(x+y)≤f(x)+f(y)
∀ α ∈ R , f ( α x ) = ∣ α ∣ f ( x ) \forall \alpha \in ℝ, \hspace{.1cm} f(\alpha x) = |\alpha|f(x) ∀α∈R,f(αx)=∣α∣f(x)
L 0 L^0 L0范数:向量中非0的元素的个数
L 1 L^1 L1范数:向量中各个元素绝对值之和
L 2 L^2 L2范数:向量各元素的平方和然后求平方根
L ∞ L^{\infty} L∞范数:向量中具有最大幅值的元素的绝对值
L F L^F LF范数:矩阵范数
两个向量的点积可以用范数来表示
x
T
y
=
∣
∣
x
∣
∣
2
∣
∣
y
∣
∣
2
c
o
s
θ
x^Ty = ||x||_2||y||_2cos\theta
xTy=∣∣x∣∣2∣∣y∣∣2cosθ
其中,
θ
\theta
θ为
x
x
x和
y
y
y之间的夹角
单位向量(unit vector):具有**单位范数(unit norm)**的向量
如果 x T y = 0 x^Ty=0 xTy=0,那么向量 x x x和向量 y y y互相正交(orthogonal)
标准正交(orthonormal):向量正交,且范数均为1
对角矩阵(diagonal matrix):只在主对角线上含有非零元素,其他位置都是零
对称矩阵(symmetric matrix):转置和自己相等的矩阵
正交矩阵(orthogonal matrix):行向量和列向量分别标准正交的方阵
A
T
A
=
A
A
T
=
I
A
−
1
=
A
T
A^TA = AA^T = I \\ A^{-1} = A^T
ATA=AAT=IA−1=AT
方阵
A
A
A的特征向量(eigenvector):与
A
A
A相乘后相当于对该向量进行缩放的非零向量
v
v
v:
A
v
=
λ
v
Av = \lambda v
Av=λv
其中,标量
λ
λ
λ称为这个特征向量对应的特征值(eigenvalue)
左特征向量(left eigenvector)
v
T
A
=
λ
v
T
v^TA = \lambda v^T
vTA=λvT
右特征向量(right eigenvector)
A
v
=
λ
v
Av = \lambda v
Av=λv
特征分解(eigendecomposition):将矩阵分解成一组特征向量和特征值
矩阵 A A A具有 n n n个线性无关的特征向量 V = [ v ( 1 ) , . . . , v ( n ) ] V = [v^{(1)}, ... , v^{(n)}] V=[v(1),...,v(n)],对应着 n n n个特征值 λ = [ λ 1 , . . . , λ n ] \lambda = [\lambda_1, ... , \lambda_n] λ=[λ1,...,λn]
矩阵
A
A
A的特征分解
A
=
V
d
i
a
g
(
λ
)
V
−
1
A = Vdiag(\lambda)V^{-1}
A=Vdiag(λ)V−1
在 A A A是实对称矩阵的情况下, V V V是正交矩阵
正定(positive definite):所有特征值都是正数的矩阵
x
T
A
x
=
0
⇒
x
=
0
x^TAx = 0 \Rightarrow x = 0
xTAx=0⇒x=0
半正定(positive semidefinite):所有特征值都是非负数的矩阵
∀
x
,
x
T
A
x
≥
0
\forall x, \hspace{0.1cm} x^TAx \geq 0
∀x,xTAx≥0
负定(negative definite):所有特征值都是负数的矩阵称
半负定(negative semidefinite):所有特征值都是非正数的矩阵
奇异值分解(Singular Value Decomposition,SVD):将矩阵分解为奇异向量(singular vector)和奇异值(singular value)
每个实数矩阵都有一个奇异值分解,但不一定都有特征分解
矩阵
A
A
A的奇异值分解
A
=
U
D
V
T
A = UDV^T
A=UDVT
其中,
A
A
A是一个
m
∗
n
m*n
m∗n的矩阵,
U
U
U是一个
m
∗
m
m*m
m∗m的矩阵,
D
D
D是一个
m
∗
n
m*n
m∗n的矩阵,
V
V
V是一个
n
∗
n
n*n
n∗n矩阵
U U U和 V V V都是正交矩阵, D D D是对角矩阵
D D D对角线上的元素称为矩阵 A A A的奇异值(singular value)
U U U的列向量称为左奇异向量(left singular vector)
V V V的列向量称右奇异向量(right singular vector)
A A A的非零奇异值: A A T AA^T AAT或 A T A A^TA ATA特征值的平方根
Moore-Penrose伪逆(Moore-Penrose pseudoinverse)
矩阵
A
(
m
∗
n
)
A(m*n)
A(m∗n)的伪逆的定义
A
+
=
lim
α
→
0
(
A
T
A
+
α
I
)
−
1
A
T
A^+ = \lim\limits_{\alpha \rightarrow 0} (A^TA + \alpha I)^{-1}A^T
A+=α→0lim(ATA+αI)−1AT
计算伪逆的实际算法没有基于这个定义,而是使用下面的公式
A
+
=
V
D
+
U
T
A^+ = VD^+U^T
A+=VD+UT
当 m ⩽ n m \leqslant n m⩽n时,使用伪逆求解线性方程是众多可能解法中的一种
当 m > n m > n m>n时,可能没有解
迹运算:矩阵对角元素的和
T
r
(
A
)
=
∑
i
A
i
,
i
Tr(A) = \sum_{i}A_{i,i}
Tr(A)=i∑Ai,i
另一种描述矩阵Frobenius范数的方式
∣
∣
A
∣
∣
F
=
T
r
(
A
A
T
)
||A||_F = \sqrt{Tr(AA^T)}
∣∣A∣∣F=Tr(AAT)
迹运算在转置运算下是不变的
T
r
(
A
)
=
T
r
(
A
T
)
Tr(A) = Tr(A^T)
Tr(A)=Tr(AT)
多个矩阵相乘得到的方阵的迹,和将这些矩阵中的最后一个挪到最前面之后相乘的迹是相同的
T
r
(
A
B
C
)
=
T
r
(
C
A
B
)
=
T
r
(
B
C
A
)
Tr(ABC) = Tr(CAB) = Tr(BCA)
Tr(ABC)=Tr(CAB)=Tr(BCA)