共轭函数:
f
∗
(
y
)
=
s
u
p
x
∈
d
o
m
f
{
y
T
x
−
f
(
x
)
}
f^*(y)=\underset{x\in dom f}{sup}\{y^Tx-f(x)\}
f∗(y)=x∈domfsup{yTx−f(x)}
几何意义:
x
y
xy
xy与
f
(
x
)
f(x)
f(x)之间差值的最大值。
Fenchel 不等式:
f
(
x
)
+
f
∗
(
y
)
⩾
x
T
y
f(x)+f^*(y)\geqslant x^Ty
f(x)+f∗(y)⩾xTy
1.2 二次共轭函数
二次共轭函数:
f
∗
∗
(
y
)
=
s
u
p
x
∈
d
o
m
f
∗
{
x
T
y
−
f
∗
(
x
)
}
f^{**}(y)=\underset{x\in dom f*}{sup}\{x^Ty-f^*(x)\}
f∗∗(y)=x∈domf∗sup{xTy−f∗(x)}
二、次梯度
2.1 次梯度的定义
次梯度:设
f
f
f为适当凸函数,
x
x
x为定义域
d
o
m
f
domf
domf中的一个点,若向量
g
∈
R
n
g\in \R^n
g∈Rn满足,
f
(
y
)
⩾
f
(
x
)
+
g
T
(
y
−
x
)
,
∀
y
∈
d
o
m
f
f(y) \geqslant f(x)+g^T(y-x),\forall y\in domf
f(y)⩾f(x)+gT(y−x),∀y∈domf,则称
g
g
g为函数
f
f
f在点
x
x
x处的一个次梯度。
次微分:
∂
f
(
x
)
=
{
g
∣
g
∈
R
n
,
f
(
y
)
⩾
f
(
x
)
+
g
T
(
y
−
x
)
,
∀
y
∈
d
o
m
f
}
\partial f(x)=\{g|g\in \R^n,f(y)\geqslant f(x) + g^T(y-x),\forall y \in domf\}
∂f(x)={g∣g∈Rn,f(y)⩾f(x)+gT(y−x),∀y∈domf}
形式化理解:对于
f
(
x
)
=
∣
x
∣
f(x)=|x|
f(x)=∣x∣,在
x
=
0
x=0
x=0的点,无导数,所以可以用次梯度。
次微分:
∂
f
(
x
)
\partial f(x)
∂f(x)为在
[
a
,
b
]
[a,b]
[a,b]区间内的次梯度
2.2 次梯度的性质
次梯度的单调性:
f
:
R
n
→
R
f:\R^n \rightarrow \R
f:Rn→R为凸函数,
x
,
y
∈
d
o
m
f
x,y\in dom f
x,y∈domf,则
μ
∈
∂
f
(
x
)
,
v
∈
∂
f
(
y
)
\mu\in \partial f(x),v\in \partial f(y)
μ∈∂f(x),v∈∂f(y)
待补…
2.3 凸函数的方向导数
f
f
f为适当函数,给定点
x
0
x_0
x0以及方向
d
∈
R
n
d\in \R^n
d∈Rn,方向导数定义为:
l
i
m
ϕ
(
t
)
t
↓
0
=
l
i
m
t
↓
0
f
(
x
0
+
t
d
)
−
f
(
x
0
)
t
\underset{t\downarrow 0}{lim\phi(t)}=\underset{t\downarrow 0}{lim}\frac{f(x_0+td)-f(x_0)}{t}
t↓0limϕ(t)=t↓0limtf(x0+td)−f(x0)
方向导数定义:
∂
f
(
x
0
;
d
)
=
i
n
f
t
>
0
f
(
x
0
+
t
d
)
−
f
(
x
0
)
t
\partial f(x_0;d)=\underset{t>0}{inf}\frac{f(x_0+td)-f(x_0)}{t}
∂f(x0;d)=t>0inftf(x0+td)−f(x0)
2.4 次梯度的计算规则
1. 基本规则
可微凸函数:
f
f
f为凸函数,若
f
f
f在点
x
x
x处可微,则
∂
f
(
x
)
=
{
∇
f
(
x
)
}
\partial f(x)=\{\nabla f(x)\}
∂f(x)={∇f(x)}
凸函数的非负线性组合:
f
1
,
f
2
f_1,f_2
f1,f2为凸函数,且满足
i
n
t
d
o
m
f
1
∩
d
o
m
f
2
≠
∅
,
x
∈
d
o
m
f
1
∩
d
o
m
f
2
int domf_1\cap domf_2 \neq \varnothing,x\in domf_1\cap domf_2
intdomf1∩domf2=∅,x∈domf1∩domf2,若
f
(
x
)
=
a
1
f
1
(
x
)
+
a
2
f
2
(
x
)
,
a
1
,
a
2
⩾
0
f(x)=a_1f_1(x)+a_2f_2(x),a_1,a_2\geqslant 0
f(x)=a1f1(x)+a2f2(x),a1,a2⩾0,则次微分为
∂
f
(
x
)
=
a
1
∂
f
1
(
x
)
+
a
2
∂
f
2
(
x
)
\partial f(x)=a_1\partial f_1(x)+a_2\partial f_2(x)
∂f(x)=a1∂f1(x)+a2∂f2(x)
线性变量替换:
h
h
h为适当凸函数,且函数
f
f
f满足
f
(
x
)
=
h
(
A
x
+
b
)
,
∀
x
∈
R
m
f(x)=h(Ax+b),\forall x\in \R^m
f(x)=h(Ax+b),∀x∈Rm,其中
A
∈
R
n
×
m
,
b
∈
R
n
A\in \R^{n×m},b\in R^n
A∈Rn×m,b∈Rn。若存在
x
#
∈
R
m
x^{\#}\in \R^m
x#∈Rm,使得
A
x
#
+
b
∈
i
n
t
d
o
m
h
Ax^{\#}+b\in int domh
Ax#+b∈intdomh,则
∂
f
(
x
)
=
A
T
∂
h
(
A
x
+
b
)
,
∀
x
∈
i
n
t
d
o
m
f
\partial f(x)=A^T\partial h(Ax+b),\forall x\in int dom f
∂f(x)=AT∂h(Ax+b),∀x∈intdomf 待补…