离线强化学习(Offline RL)系列6: (采样效率) OfflineRL中的样本选择策略(Sample Selection Strategies)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-N9thAlzj-1660527359275)(https://i.imgur.com/LNoCeZo.png)]

论文原文： https://offline-rl-neurips.github.io/2021/pdf/33.pdf

我们知道在强化学习中，不同的样本选择对算法的影响比较大，最典型的莫过于使用优先级经验回放(PER)技术提高算法对采样样本的选择效率，那么在完全依赖于采样样本学习的OfflineRL中，如何高效的从dataset中通过采样数据进行高效学习呢？

本文作者根据各种启发式优先级指标（6种指标）对比实验，指标侧重于离线学习设置的不同方面（包括temporal-difference error, n-step return, self-imitation learning objective, pseudo-count, uncertainty, and likelihood），结果表明（1）non-uniform sampling仍然是最有效的采样方式。（2）没有任何一个metric适合于所有场景。（3）仅通过改变采样方案来避免Offline中的bootstrapping error是不够的。

1、基础工作

1.1、在OffLine中现有的采样方面的工作有哪些？

Optimal Sample Selection（OOS）：是一种model-based RL (MBRL) approach方法，介绍了一种元学习算法，利用交叉熵搜索方法对基于树的拟合q迭代(FQI)选择最优样本的元学习算法
Best-Action Imitation Learning：提出了在行为克隆中选择具有学习值函数的高性能样本
Advantage-Weighted Regression（AWR）：使用奖励加权回归来学习策略。
Advantage-weighted Behavior Model (ABM)：使用奖励加权回归来学习策略。
Uncertainty Weighted Actor Critic (UWAC)：采用dropout-uncertainty性估计方法，并利用估计的不确定性对样本进行重新加权。

然而，目前还不清楚在OfflineRL中首选哪一种样本选择策略，因此需要更多的研究，下面我们说说本论文提出的Non-uniform Sampling with Experience Replay方法

1.2、关于PER算法的几种变体

一个值得注意的例子是优先体验回放(PER)，其中采样某个transition( $s_{t}$ ， $a_{t}$ ， $s_{t+1}$ )的概率与绝对TD误差成正比。然而，哪个优先级度量是评估样本重要性的最优仍然是一个悬而未决的问题

关于优先级经验方法，大家可以参考我之前的博客深度强化学习系列(8): Prioritized Experience Replay(PER-DQN)原理及实现

这里作者提出了关于PER中使用绝对TD误差 $|\delta(i)|$ 作为优先级度量，并对第 $i$ 次过渡进行采样的概率 $p (i)$ 为：

$p(i)=\frac{p_{i}^{\alpha}}{\sum_{j} p_{j}^{\alpha}}, \quad p_{i}=|\delta(i)|+\epsilon \quad \text { or } \quad p_{i}=\frac{1}{\operatorname{rank}(i)},$

关于PER算法的几种变体

Hindsight Experience Replay (HER)：提出将访问状态重新标记为目标状态，以克服稀疏奖励的困难探索问题。
Competitive Experience Replay (CER)：通过制定两个主体之间的探索性竞争，引入了一个自动的探索性课程（curriculum）
Remember and Forget Experience Replay (ReF-ER)：通过当前策略 $p i$ 和行为策略 $\mu$ 之间的重要性权重 $\rho=\pi(a \mid s) / \mu(a \mid s)$ （将样本分类为“近策略”和“远策略”，并且仅使用近策略样本计算梯度。
Attentive Experience Replay (AER): 根据Transition状态和当前状态之间的相似性来选择样本。
Loss-Adjusted Prioritized (LAP) experience replay:建立了PER中的非均匀采样方案与损失函数之间的联系，这里应该可以说是作者论文的启发点吧，方法结果表明，任何用均匀采样计算 $\left(i \sim \mathcal{D}_{1}\right)$ 的损失函数 $\mathcal{L}_{1}$ 都等价于另一个用非均匀采样数据 $\left(i \sim \mathcal{D}_{2}\right)$ 计算的损失函数 $\mathcal{L}_{2}$ ：
$\mathbb{E}_{i \sim \mathcal{D}_{1}}\left[\nabla_{Q} \mathcal{L}_{1}(\delta(i))\right]=\mathbb{E}_{i \sim \mathcal{D}_{2}}\left[\frac{p_{\mathcal{D}_{1}}(i)}{p_{\mathcal{D}_{2}}(i)} \nabla_{Q} \mathcal{L}_{1}(\delta(i))\right]=\mathbb{E}_{i \sim \mathcal{D}_{2}}\left[\nabla_{Q} \mathcal{L}_{2}(\delta(i)),\right]$
Valuable Experience Replay (VER)：证明了绝对TD误差 $|\delta(i)|$ 是 $Q$ 学习中的不同经验价值度量的上界。

2、实验及方法

在本项工作中，作者选择TD3BC【离线强化学习(Offline RL)系列3: (算法篇) TD3+BC 算法详解与实现（经验篇）】和PER作为批量RL中样本选择策略的基准测试的骨干算法。

在这里插入图片描述

2.1、不同度量

下面是作者实验中对比的6种不同的优先级度量

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gZWdgIO4-1660527359278)(https://i.imgur.com/swuRFcm.png)]

关于每种度量的具体介绍如下：

2.2、实验环境数据集

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-viFH8B7R-1660527359280)(https://i.imgur.com/EwsEBXt.png)]

2.3、实验结果

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eAvHQrDm-1660527359281)(https://i.imgur.com/XEjJ3Ln.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Vq0EdpSQ-1660527359288)(https://i.imgur.com/BjrCwQr.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EoU6oEfK-1660527359289)(https://i.imgur.com/iAwbEPt.png)]

相关阅读:
Java中的Map接口--HashMap[76]
SpringBoot读取.yml配置文件最常见的两种方式-源码及其在nacos的应用
云呐|动环监控设备维护与常见故障处理
【正点原子STM32连载】第八章新建HAL版本MDK工程摘自【正点原子】MiniPro STM32H750 开发指南_V1.1
USD 能统一元宇宙吗？
计算机竞赛题目：基于卷积神经网络的手写字符识别 - 深度学习
CSS 长度单位
使用node-pty报错Uncaught Error: This socket has been ended by the other party
C语言错题笔记
Pytorch实现图像语义分割（初体验）

原文地址：https://blog.csdn.net/gsww404/article/details/126340751