|
≐
\doteq
≐ | 定义符号 |
|
≈
\approx
≈ | 约等于 |
|
ϵ
\epsilon
ϵ |
ϵ
\epsilon
ϵ贪心策略中随机采取动作的概率 |
|
γ
\gamma
γ | 折扣系数 |
|
λ
\lambda
λ | 迹中的衰减率 |
|
←
\leftarrow
← | 赋值符号 |
|
s
s
s,
s
′
s'
s′ | 状态
s
s
s |
|
a
a
a | 动作
a
a
a |
|
r
r
r | 收益
r
r
r |
|
t
t
t | 离散的时间步,或称为时刻 |
|
π
\pi
π | 策略(决策规则) |
|
π
(
s
)
\pi(s)
π(s) | 根据确定性策略
π
\pi
π 在状态
s
s
s 时选取的动作 |
|
π
(
a
∣
s
)
\pi(a|s)
π(a∣s) | 根据随机性策略
π
\pi
π 在状态
s
s
s 时选取的动作
a
a
a 的概率 |
|
A
t
A_{t}
At |
t
t
t 时刻的动作 |
|
S
t
S_{t}
St |
t
t
t 时刻的状态,通常由
S
t
−
1
S_{t-1}
St−1 和
A
t
−
1
A_{t-1}
At−1 随机决定 |
|
R
t
R_{t}
Rt |
t
t
t 时刻的收益,通常由
S
t
−
1
S_{t-1}
St−1 和
A
t
−
1
A_{t-1}
At−1 随机决定 |
|
G
t
G_t
Gt |
t
t
t 时刻的回报(是个期望值) |
|
p
(
s
′
,
r
∣
s
,
a
)
p(s', r |s, a)
p(s′,r∣s,a) | 从状态
s
s
s 采取动作
a
a
a 转移到状态
s
′
s'
s′ 并获得收益
r
r
r 的概率 |
|
p
(
s
′
∣
s
,
a
)
p(s' |s, a)
p(s′∣s,a) | 从状态
s
s
s 采取动作
a
a
a 转移到状态
s
′
s'
s′ 的概率 |
|
r
(
s
,
a
)
r(s, a)
r(s,a) | 从状态
s
s
s 采取动作
a
a
a 获得的即时收益的期望 |
|
r
(
s
,
a
,
s
′
)
r(s, a, s')
r(s,a,s′) | 从状态
s
s
s 采取动作
a
a
a 转移到状态
s
′
s'
s′ 获得的即时收益的期望 |
|
v
π
(
s
)
v_\pi(s)
vπ(s) | 状态
s
s
s 在策略
π
\pi
π 下的价值(期望回报) |
|
v
∗
(
s
)
v_*(s)
v∗(s) | 状态
s
s
s 在最优策略下的价值 |
|
q
π
(
s
,
a
)
q_\pi(s, a)
qπ(s,a) | 状态
s
s
s 在策略
π
\pi
π 下采取动作
a
a
a 的价值 |
|
q
∗
(
s
,
a
)
q_*(s, a)
q∗(s,a) | 状态
s
s
s 在最优策略下采取动作
a
a
a 的价值 |
|
V
V
V,
V
t
V_{t}
Vt | 状态价值函数 |
|
Q
Q
Q,
Q
t
Q_{t}
Qt | 动作价值函数 |