强化学习-学习笔记14 | 策略梯度中的 Baseline - 码农知识堂

强化学习-学习笔记14 | 策略梯度中的 Baseline
本篇笔记记录学习在 策略学习 中使用 Baseline，这样可以降低方差，让收敛更快。

14. 策略学习中的 Baseline

14.1 Baseline 推导
- 在策略学习中，我们使用策略网络 $π (a | s; θ)$ 控制 agent，
- 状态价值函数
  
  $V_{π} (s) = E_{A \sim π} [Q_{π} (s, A)] = \sum_{a} π (a | s; θ) \cdot Q_{π} (a, s)$
- 策略梯度：
  
  $\frac{\partial V_{π} (s)}{\partial θ} = E_{A \sim π} [\frac{\partial l n π (A | s; θ)}{\partial θ} \cdot Q_{π} (s, A)]$
在策略梯度算法中引入 Baseline 主要是用于减小方差，从而加速收敛

Baseline 可以是任何独立于动作 A 的数，记为 b。

Baseline的性质：
- 这个期望是0： $E_{A \sim π} [b \cdot \frac{\partial \ln π (A | s; θ)}{\partial θ}] = 0$
  - 因为 b 不依赖动作 A ，而该式是对 A 求期望，所以可以把 b 提出来，有： $b \cdot E_{A \sim π} [\frac{\partial \ln π (A | s; θ)}{\partial θ}]$
  - 而期望 E 这一项可以展开： $b \sum_{a} π (a | s; θ) \cdot \frac{\partial \ln_{π} (A | s; θ)}{\partial θ}$
    
    这个性质在策略梯度算法用到的的两种形式有提到过。
  - 用链式法则展开后面的导数项，即: $\frac{\partial \ln_{π} (A | s; θ)}{\partial θ} = \frac{1}{π (a | s; θ)} \cdot \frac{\partial π (a | s; θ)}{\partial θ}$
  - 这样整个式子为： $b \sum_{a} π (a | s; θ) \cdot \frac{1}{π (a | s; θ)} \cdot \frac{\partial π (a | s; θ)}{\partial θ} = b \cdot \sum_{a} \frac{\partial π (a | s; θ)}{\partial θ}$
  - 由于连加是对于 a 进行连加，而内部求导是对于 θ 进行求导，所以求和符号可以和导数符号交换位置：
    
    $b \cdot \frac{\partial \sum_{a} π (a | s; θ)}{\partial θ}$
    
    这是数学分析中级数部分的内容。
  - 而 $\sum_{a} π (a | s; θ) = 1$ ，所以有 $b \cdot \frac{\partial 1}{\partial θ} = 0$
根据上面这个式子的性质，可以向策略梯度中添加 baseline
- 策略梯度 with baseline：$$\frac{\partial \ V_\pi(s)}{\partial \ \theta}=\mathbb{E}{A\sim\pi}[\frac{\partial ln \pi(A|s;\theta)}{\partial \theta}\cdot Q\pi(s,A)]- \mathbb{E}{A\sim\pi}[b\cdot \frac{\partial \ \ln\pi(A|s;\theta)}{\partial\theta}] \=\mathbb{E}{A\sim\pi}[\frac{\partial ln \pi(A|s;\theta)}{\partial \theta}\cdot(Q_\pi(s,A)-b)]$$
- 这样引入b对期望 $E$ 没有影响，为什么要引入 b 呢？
  - 策略梯度算法中使用的并不是严格的上述式子，而是它的蒙特卡洛近似；
  - b不影响期望，但是影响蒙特卡洛近似；
  - 如果 b 好，接近 $Q_{π}$ ，那么会让蒙特卡洛近似的方差更小，收敛速度更快。
14.2 策略梯度的蒙特卡洛近似

上面我们得到： $\frac{\partial V_{π} (s_{t})}{\partial θ} = E_{A_{t} \sim π} [\frac{\partial l n π (A_{t} | s_{t}; θ)}{\partial θ} \cdot (Q_{π} (s_{t}, A_{t}) - b)]$

但直接求期望往往很困难，通常用蒙特卡洛近似期望。
- 令 $g (A_{t}) = [\frac{\partial l n π (A_{t} | s_{t}; θ)}{\partial θ} \cdot (Q_{π} (s_{t}, A_{t}) - b)]$
- 根据策略函数 $π$ 随机抽样 $a_{t}$ ，计算 $g (a_{t})$ ，这就是上面期望的蒙特卡洛近似； $g (a_{t}) = [\frac{\partial l n π (a_{t} | s_{t}; θ)}{\partial θ} \cdot (Q_{π} (s_{t}, a_{t}) - b)]$
- $g (a_{t})$ 是对策略梯度的无偏估计；
  
  因为： $E_{A_{t} \sim π} [g (A_{t})] = \frac{\partial V_{π} (s_{t})}{\partial θ}$ ，期望相等。
- $g (a_{t})$ 是个随机梯度，是对策略梯度 $E_{A_{t} \sim π} [g (A_{t})]$ 的蒙特卡洛近似
- 在实际训练策略网络的时候，用随机梯度上升更新参数θ： $θ \leftarrow θ + β \cdot g (a_{t})$
- 策略梯度是 $g (a_{t})$ 的期望，不论 b 是什么，只要与 A 无关，就都不会影响 $g (A_{t})$ 的期望。为什么不影响已经在 14.1 中讲过了。
  - 但是 b 会影响 $g (a_{t})$ ；
  - 如果 b 选取的很好，很接近 $Q_{π}$ ，那么随机策略梯度 $g (a_{t})$ 的方差就会小；
14.3 Baseline的选取

介绍两种常用的 baseline。

回到顶部
a. b=0

第一种就是把 baseline 取0，即与之前相同： $\frac{\partial V_{π} (s)}{\partial θ} = E_{A \sim π} [\frac{\partial l n π (A | s; θ)}{\partial θ} \cdot Q_{π} (s, A)]$

回到顶部
b. b= $V_{π}$

另一种就是取 b 为 $V_{π}$ ，而 $V_{π}$ 只依赖于当前状态 $s_{t}$ ，所以可以用来作为 b。并且 $V_{π}$ 很接近 $Q_{π}$ ，可以降低方差加速收敛。

因为 $V_{π} (s_{t}) = E [Q_{π} (s_{t}, A_{t})]$ ，作为期望，V 很接近 Q。

14.4 Reinforce with Baseline

把 baseline 用于 Reinforce 算法上。

回到顶部
a. 基本概念
- 折扣回报： $U_{t} = R_{t} + γ \cdot R_{t + 1} + γ^{2} \cdot R_{t + 2} + . . .$
- 动作价值函数： $Q_{π} (s_{t}, a_{t}) = E [U_{t} | s_{t}, a_{t}] .$
- 状态价值函数： $V_{π} (s_{t}) = E_{A} [Q_{π} (s_{t}, A) | s_{t}]$
- 应用 baseline 的策略梯度：使用的是上面第二种 baseline：
  
  $\frac{\partial V_{π} (s_{t})}{\partial θ} = E_{A_{t} \sim π} [g (A_{t})] = E_{A_{t} \sim π} [\frac{\partial l n π (A_{t} | s_{t}; θ)}{\partial θ} \cdot (Q_{π} (s_{t}, A_{t}) - V_{π} (s_{t}))]$
- 对动作进行抽样，用 $g (a_{t})$ 做蒙特卡洛近似，为无偏估计（因为期望==策略梯度）： $a_{t} \sim π (\cdot | s_{t}; θ)$
  
  $g (a_{t})$ 就叫做随机策略梯度，用随机抽取的动作对应的值来代替期望，是策略梯度的随即近似；这正是蒙特卡洛方法的应用。
  - $g (a_{t}) = [\frac{\partial l n π (a_{t} | s_{t}; θ)}{\partial θ} \cdot (Q_{π} (s_{t}, a_{t}) - b)]$
但上述公式中还是有不确定的项: $Q_{π} V_{π}$ ，继续近似：
- 用观测到的 $u_{t}$ 近似 $Q_{π}$ ，因为 $Q_{π} (s_{t}, a_{t}) = E [U_{t} | s_{t}, a_{t}] .$ 这也是一次蒙特卡洛近似。
  
  这也是 Reinforce 算法的关键。
- 用神经网络-价值网络 $v (s; w)$ 近似 $V_{π}$ ；
所以最终近似出来的策略梯度 是：

$\frac{\partial V_{π} (s_{t})}{\partial θ} \approx g (a_{t}) \approx \frac{\partial l n π (a_{t} | s_{t}; θ)}{\partial θ} \cdot (u_{t} - v (s; w))$
当我们知道策略网络 $π$ 、折扣回报 $u_{t}$ 以及价值网络 $v$ ，就可以计算这个策略梯度。

我们总计做了3次近似：
1. 用一个抽样动作 $a_{t}$ 带入 $g (a_{t})$ 来近似期望；
2. 用回报 $u_{t}$ 近似动作价值函数 $Q_{π}$ ；
  
  1、2都是蒙特卡洛近似；
3. 用神经网络近似状态价值函数 $V_{π}$
  
  函数近似。
回到顶部
b. 算法过程

我们需要建立一个策略网络和一个价值网络，后者辅助训练前者。
- 策略网络：
- 价值网络：
- 参数共享：
用 Reinforce 算法训练策略网络，用回归方法训练价值网络。
- 在一次训练中 agent 获得轨迹： $s_{1}, a_{1}, r_{1}, s_{2}, a_{2}, r_{2}, . . .$
- 计算 $u_{t} = \sum_{i = t}^{n} γ^{i - t} r^{i}$
- 更新策略网络
  1. 得到策略梯度： $\frac{\partial V_{π} (s_{t})}{\partial θ} \approx \frac{\partial l n π (a_{t} | s_{t}; θ)}{\partial θ} \cdot (u_{t} - v (s; w))$
  2. 梯度上升，更新参数： $θ \leftarrow θ + β \cdot \frac{\partial \ln π (a_{t} | s_{t}; θ)}{\partial θ} \cdot (u_{t} - v (s_{t}; w))$
    
    记 $u_{t} - v (s_{t}; w)$ 为 $- δ_{t}$
    
    $θ \leftarrow θ - β \cdot \frac{\partial \ln π (a_{t} | s_{t}; θ)}{\partial θ} \cdot δ_{t}$
- 更新价值网络
  
  回顾一下价值网络的目标： $V_{π}$ 是 $U_{t}$ 的期望，训练价值网络是让v接近期望 $V_{π}$
  1. 用观测到的 $u_{t}$ 拟合 v，两者之间的误差记为
    
    prediction error: $δ_{t} = v (s_{t}; w) - u_{t}$ ，
  2. 求导得策略梯度: $\frac{\partial δ^{2} / 2}{\partial w} = δ_{t} \cdot \frac{\partial v (s_{t}; w)}{\partial w}$
  3. 梯度下降更新参数： $w \leftarrow w - α \cdot δ_{t} \cdot \frac{\partial v (s_{t}; w)}{\partial w}$
- 如果轨迹的长度为n，可以对神经网络进行n次更新
14.5 A2C算法

回到顶部
a.基本概念

Advantage Actor Critic. 把 baseline 用于 Actor-Critic 上。

所以需要一个策略网络 actor 和一个价值网络 critic。但与第四篇笔记AC算法有所不同。
- 策略网络还是 $π (a | s; θ)$ ，而价值网络是 $v (s; w)$ ，是对 $V_{π}$ 的近似，而不是第四篇笔记中的 $Q_{π}$ 。
  
  因为 V 不依赖于动作，而 Q 依赖动作和状态，故近似V 的方法可以引入 baseline。
- A2C 网络结构：
与 14.4 中的结构相同，区别在于训练方法不同。

回到顶部
b. 训练过程
1. 观察到一个 transition( $s_{t} ， a_{t}, r_{t}, s_{t + 1}$ )
2. 计算 TD target： $y_{t} = r_{t} + γ \cdot v (s_{t + 1}; w)$
3. 计算 TD error： $δ_{t} = v (s_{t}; w) - y_{t}$
4. 用策略网络梯度更新策略网络θ： $θ \leftarrow θ - β \cdot δ_{t} \cdot \frac{\partial \ln π (a_{t} | s_{t}; θ)}{\partial θ}$
  
  注意！这里的 $δ_{t}$ 是前文中的 “ $u_{t} - v (s_{t}; w)$ 为 $- δ_{t}$ ”
5. 用TD更新价值网络： $w \leftarrow w - α \cdot δ_{t} \cdot \frac{\partial v (s_{t}; w)}{\partial w}$
回到顶部
c. 数学推导

A2C的基本过程就在上面，很简洁，下面进行数学推导。

1.价值函数的性质
- $Q_{π}$
  - TD算法推导时用到过这个式子： $Q_{π} (s_{t}, a_{t}) = E_{S_{t + 1}, A_{t + 1}} [R_{t} + γ \cdot Q_{π} (S_{t + 1}, A_{t + 1})]$
  - 随机性来自 $S_{t + 1}, A_{t + 1}$ ，而对之求期望正好消掉了随机性，可以把对 $A_{t + 1}$ 的期望放入括号内， $R_{t}$ 与 $A_{t + 1}$ 无关，则有 定理一：
    
    $Q_{π} (s_{t}, a_{t}) = E_{S_{t + 1}} [R_{t} + γ \cdot E_{A_{t + 1}} [Q_{π} (S_{t + 1}, A_{t + 1})] = E_{S_{t + 1}} [R_{t} + γ \cdot V_{π} (s_{t + 1})]$
  - 即： $Q_{π} (s_{t}, a_{t}) = E_{S_{t + 1}} [R_{t} + γ \cdot V_{π} (s_{t + 1})]$
- $V_{π}$
  - 根据定义： $V_{π} (s_{t}) = E [Q_{π} (s_{t}, A_{t})]$
  - 将 Q 用 定理一 替换掉：
    
    $V_{π} (s_{t}) = E_{A_{t}} E_{S_{t + 1}} [R_{t} + γ \cdot V_{π} (S_{t + 1})] = E_{A_{t}, S_{t + 1}} [R_{t} + γ \cdot V_{π} (S_{t + 1})]$
  - 这就是 定理二： $V_{π} (s_{t}) = E_{A_{t}, S_{t + 1}} [R_{t} + γ \cdot V_{π} (S_{t + 1})]$
这样就将 Q 和 V 表示为期望的形式，A2C会用到这两个期望，期望不好求，我们是用蒙特卡洛来近似求期望：
- 观测到 transition( $s_{t}, a_{t}, r_{t}, s_{t + 1}$ )
- $Q_{π}$
  - $Q_{π} (s_{t}, a_{t}) \approx r_{t} + γ \cdot V_{π} (s_{t + 1})$
  - 训练策略网络；
- $V_{π}$
  - $V_{π} (s_{t}) \approx r_{t} + γ \cdot V_{π} (s_{t + 1})$
  - 训练价值网络，这也是TD target 的来源；
2. 更新策略网络

即使用 baseline 的策略梯度算法。
- $g (a_{t}) = [\frac{\partial l n π (a_{t} | s_{t}; θ)}{\partial θ} \cdot (Q_{π} (s_{t}, a_{t}) - V_{π} (s_{t}))]$ 是策略梯度的蒙特卡洛近似。
- 前面Dueling Network提到过， $Q_{π} - V_{π}$ 是优势函数 Advantage Function.
  
  这也是 A2C 的名字来源。
- Q 和 V 都还不知道，需要做近似，14.5.c.1 中介绍了：
  - $Q_{π} (s_{t}, a_{t}) \approx r_{t} + γ \cdot V_{π} (s_{t + 1})$
  - 所以是： $g (a_{t}) \approx \frac{\partial l n π (a_{t} | s_{t}; θ)}{\partial θ} \cdot [(r_{t} + γ \cdot V_{π} (s_{t + 1})) - V_{π} (s_{t})]$
  - 对 $V_{π}$ 进行函数近似 $v (s; w)$
  - 则得最终： $g (a_{t}) \approx \frac{\partial l n π (a_{t} | s_{t}; θ)}{\partial θ} \cdot [(r_{t} + γ \cdot v (s_{t + 1; w})) - v (s_{t; w})]$
  用上式更新策略网络。
- 而 $r_{t} + γ \cdot v (s_{t + 1; w})$ 正是 TD target $y_{t}$
- 梯度上升更新参数： $θ \leftarrow θ - β \cdot \frac{\partial \ln π (a_{t} | s_{t}; θ)}{\partial θ} \cdot (y_{t} - v (s_{t}; w))$
  
  这样的梯度上升更好。
因为以上式子中都有 V，所以需要近似计算 V：

$g (a_{t}) \approx \frac{\partial l n π (a_{t} | s_{t}; θ)}{\partial θ} \cdot \underset{e v a l u a t i o n m a d e b y t h e c r i t i c}{\underset{⏟}{[(r_{t} + γ \cdot V_{π} (s_{t + 1})) - V_{π} (s_{t})]}}$

3. 更新价值网络

采用 TD 算法更新价值网络，根据 14.5.b 有如下式子：
- $V_{π} (s_{t}) \approx r_{t} + γ \cdot V_{π} (s_{t + 1})$
- 对上式得 $V_{π}$ 做函数近似，替换为 $v (s_{t}; w), v (s_{t + 1; w})$ ；
- $v (s_{t}; w) \approx \underset{T D t a r g e t y_{t}}{\underset{⏟}{r_{t} + γ \cdot v (s_{t + 1}; w)}}$
- 训练价值网络就是要让 $v (s; w)$ 接近 $y_{t}$
  - TD error: $δ_{t} = v (s_{t}; w) - y_{t}$
  - 梯度: $\frac{\partial δ_{t}^{2} / 2}{\partial w} = δ_{t} \cdot \frac{\partial v (s_{t}; w)}{\partial w}$
  - 更新： $w \leftarrow w - α \cdot δ_{t} \cdot \frac{\partial v (s_{t}; w)}{\partial w}$
4. 有关的策略梯度

在A2C 算法中的策略梯度： $g (a_{t}) \approx \frac{\partial l n π (a_{t} | s_{t}; θ)}{\partial θ} \cdot [(r_{t} + γ \cdot v (s_{t + 1; w})) - v (s_{t; w})]$

会有这么一个问题，后面这一项是由价值网络给出对策略网络选出的动作进行打分，那么为什么这一项中没有动作呢，没有动作怎么给动作打分呢？
- 注意这两项：
- $(r_{t} + γ \cdot v (s_{t + 1; w}))$ 是执行完 $a_{t}$ 后作出的预测
- $v (s_{t}; w)$ 是未执行 $a_{t}$ 时作出的预测；
- 两者之差意味着动作 $a_{t}$ 对于 V 的影响程度
- 而在AC算法中，价值网络给策略网络的是 q，而在A2C算法中，价值网络给策略网络的就是上两式之差 advantage.
14.6 RwB 与A2C 的对比
- 两者的神经网络结构完全一样
- 不同的是价值网络
  - RwB 的价值网络只作为 baseline，不评价策略网络，用于降低随机梯度造成的方差；
  - A2C 的价值网络时critic，评价策略网络；
- RwB 是 A2C 的特殊形式。这一点下面 14.7 后会讲。
14.7 A2C with m-step

单步 A2C 就是上面所讲的内容，具体请见 14.5.b。

而多步A2C就是使用 m 个连续 transition：
- $y_{t} = \sum_{i = 0}^{m - 1} γ^{i} \cdot r_{t + 1} + γ^{m} \cdot v (s_{t + m}; w)$
- 具体参见m-step
- 剩下的步骤没有任何改变，只是 TD target 改变了。
下面解释 RwB 和 A2C with m-step 的关系：
- A2C with m-step 的TD target： $y_{t} = \sum_{i = 0}^{m - 1} γ^{i} \cdot r_{t + 1} + γ^{m} \cdot v (s_{t + m}; w)$
- 如果使用所有的奖励，上面两项中的第二项（估计）就不存在，而第一项变成了
  - $y_{t} = u_{t} = \sum_{i = t}^{n} γ^{i - t} \cdot r_{i}$
  - 这就是 Reinforce with baseline.
x. 参考教程
- 视频课程：深度强化学习（全）_哔哩哔哩_bilibili
- 视频原地址：https://www.youtube.com/user/wsszju
- 课件地址：https://github.com/wangshusen/DeepLearning
相关阅读:
深度学习崛起十年：“开挂”的OpenAI革新者
 自动驾驶---OpenSpace之Hybrid A*规划算法
 计算机Android毕业设计论文基于Uniapp+SSM实现的作业管理app
java虚拟机详解篇十二（方法调用和方法的绑定机制）
分析股票怎么进行量化交易？
类和函数的泛化、偏特化和全特化
 python pyewbio介绍如果实现网页跳转
 springboot项目下logback配置
 高纬度矩阵乘法的意义
 C# string字符串内存管理深入分析（全程干货）
原文地址：https://www.cnblogs.com/Roboduster/p/16469451.html

强化学习-学习笔记14 | 策略梯度中的 Baseline

14. 策略学习中的 Baseline

14.1 Baseline 推导

14.2 策略梯度的蒙特卡洛近似

14.3 Baseline的选取

a. b=0

b. b= VπVπ

14.4 Reinforce with Baseline

a. 基本概念

b. 算法过程

14.5 A2C算法

a.基本概念

b. 训练过程

c. 数学推导

1.价值函数的性质

2. 更新策略网络

3. 更新价值网络

4. 有关的策略梯度

14.6 RwB 与A2C 的对比

14.7 A2C with m-step

x. 参考教程

b. b= $V_{π}$