码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 离线强化学习(Offline RL)系列6: (采样效率) OfflineRL中的样本选择策略(Sample Selection Strategies)


    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-N9thAlzj-1660527359275)(https://i.imgur.com/LNoCeZo.png)]

    论文原文: https://offline-rl-neurips.github.io/2021/pdf/33.pdf

    我们知道在强化学习中,不同的样本选择对算法的影响比较大,最典型的莫过于使用优先级经验回放(PER)技术提高算法对采样样本的选择效率,那么在完全依赖于采样样本学习的OfflineRL中,如何高效的从dataset中通过采样数据进行高效学习呢?

    本文作者根据各种启发式优先级指标(6种指标)对比实验,指标侧重于离线学习设置的不同方面(包括temporal-difference error, n-step return, self-imitation learning objective, pseudo-count, uncertainty, and likelihood),结果表明(1)non-uniform sampling仍然是最有效的采样方式。(2)没有任何一个metric适合于所有场景。(3)仅通过改变采样方案来避免Offline中的bootstrapping error是不够的。

    1、基础工作

    1.1、在OffLine中现有的采样方面的工作有哪些?

    1. Optimal Sample Selection(OOS):是一种model-based RL (MBRL) approach方法,介绍了一种元学习算法,利用交叉熵搜索方法对基于树的拟合q迭代(FQI)选择最优样本的元学习算法
    2. Best-Action Imitation Learning:提出了在行为克隆中选择具有学习值函数的高性能样本
    3. Advantage-Weighted Regression(AWR):使用奖励加权回归来学习策略。
    4. Advantage-weighted Behavior Model (ABM):使用奖励加权回归来学习策略。
    5. Uncertainty Weighted Actor Critic (UWAC):采用dropout-uncertainty性估计方法,并利用估计的不确定性对样本进行重新加权。

    然而,目前还不清楚在OfflineRL中首选哪一种样本选择策略,因此需要更多的研究,下面我们说说本论文提出的Non-uniform Sampling with Experience Replay方法

    1.2、 关于PER算法的几种变体

    一个值得注意的例子是优先体验回放(PER),其中采样某个transition( s t s_{t} st​, a t a_{t} at​, s t + 1 s_{t+1} st+1​)的概率与绝对TD误差成正比。然而,哪个优先级度量是评估样本重要性的最优仍然是一个悬而未决的问题

    关于优先级经验方法,大家可以参考我之前的博客深度强化学习系列(8): Prioritized Experience Replay(PER-DQN)原理及实现

    这里作者提出了关于PER中使用绝对TD误差 ∣ δ ( i ) ∣ |\delta(i)| ∣δ(i)∣作为优先级度量,并对第 i i i次过渡进行采样的概率 p ( i ) p(i) p(i)为:

    p ( i ) = p i α ∑ j p j α , p i = ∣ δ ( i ) ∣ + ϵ  or  p i = 1 rank ⁡ ( i ) , p(i)=\frac{p_{i}^{\alpha}}{\sum_{j} p_{j}^{\alpha}}, \quad p_{i}=|\delta(i)|+\epsilon \quad \text { or } \quad p_{i}=\frac{1}{\operatorname{rank}(i)}, p(i)=∑j​pjα​piα​​,pi​=∣δ(i)∣+ϵ or pi​=rank(i)1​,

    关于PER算法的几种变体

    1. Hindsight Experience Replay (HER):提出将访问状态重新标记为目标状态,以克服稀疏奖励的困难探索问题。

    2. Competitive Experience Replay (CER):通过制定两个主体之间的探索性竞争,引入了一个自动的探索性课程(curriculum)

    3. Remember and Forget Experience Replay (ReF-ER):通过当前策略 p i pi pi和行为策略 μ \mu μ之间的重要性权重 ρ = π ( a ∣ s ) / μ ( a ∣ s ) \rho=\pi(a \mid s) / \mu(a \mid s) ρ=π(a∣s)/μ(a∣s)(将样本分类为“近策略”和“远策略”,并且仅使用近策略样本计算梯度。

    4. Attentive Experience Replay (AER): 根据Transition状态和当前状态之间的相似性来选择样本。

    5. Loss-Adjusted Prioritized (LAP) experience replay:建立了PER中的非均匀采样方案与损失函数之间的联系,这里应该可以说是作者论文的启发点吧,方法结果表明,任何用均匀采样计算 ( i ∼ D 1 ) \left(i \sim \mathcal{D}_{1}\right) (i∼D1​)的损失函数 L 1 \mathcal{L}_{1} L1​都等价于另一个用非均匀采样数据 ( i ∼ D 2 ) \left(i \sim \mathcal{D}_{2}\right) (i∼D2​)计算的损失函数 L 2 \mathcal{L}_{2} L2​:
      E i ∼ D 1 [ ∇ Q L 1 ( δ ( i ) ) ] = E i ∼ D 2 [ p D 1 ( i ) p D 2 ( i ) ∇ Q L 1 ( δ ( i ) ) ] = E i ∼ D 2 [ ∇ Q L 2 ( δ ( i ) ) , ] \mathbb{E}_{i \sim \mathcal{D}_{1}}\left[\nabla_{Q} \mathcal{L}_{1}(\delta(i))\right]=\mathbb{E}_{i \sim \mathcal{D}_{2}}\left[\frac{p_{\mathcal{D}_{1}}(i)}{p_{\mathcal{D}_{2}}(i)} \nabla_{Q} \mathcal{L}_{1}(\delta(i))\right]=\mathbb{E}_{i \sim \mathcal{D}_{2}}\left[\nabla_{Q} \mathcal{L}_{2}(\delta(i)),\right] Ei∼D1​​[∇Q​L1​(δ(i))]=Ei∼D2​​[pD2​​(i)pD1​​(i)​∇Q​L1​(δ(i))]=Ei∼D2​​[∇Q​L2​(δ(i)),]
      在这里插入图片描述

    6. Valuable Experience Replay (VER):证明了绝对TD误差 ∣ δ ( i ) ∣ |\delta(i)| ∣δ(i)∣是 Q Q Q学习中的不同经验价值度量的上界。

    2、实验及方法

    在本项工作中,作者选择TD3BC【离线强化学习(Offline RL)系列3: (算法篇) TD3+BC 算法详解与实现(经验篇)】和PER作为批量RL中样本选择策略的基准测试的骨干算法。

    在这里插入图片描述

    2.1、不同度量

    下面是作者实验中对比的6种不同的优先级度量

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gZWdgIO4-1660527359278)(https://i.imgur.com/swuRFcm.png)]

    关于每种度量的具体介绍如下:

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aAYzmd82-1660527359278)(https://i.imgur.com/0wvie7E.png)]
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NyscvWLX-1660527359279)(https://i.imgur.com/j83A4uI.png)]

    2.2、实验环境数据集

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-viFH8B7R-1660527359280)(https://i.imgur.com/EwsEBXt.png)]

    2.3、实验结果

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eAvHQrDm-1660527359281)(https://i.imgur.com/XEjJ3Ln.png)]

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Vq0EdpSQ-1660527359288)(https://i.imgur.com/BjrCwQr.png)]

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EoU6oEfK-1660527359289)(https://i.imgur.com/iAwbEPt.png)]


    OfflineRL推荐阅读

    离线强化学习(Offline RL)系列5: (模型参数) 离线强化学习中的超参数选择(Offline Hyperparameters Selection)
    离线强化学习(Offline RL)系列4:(数据集) 经验样本复杂度(Sample Complexity)对模型收敛的影响分析
    离线强化学习(Offline RL)系列4:(数据集)Offline数据集特征及对离线强化学习算法的影响
    离线强化学习(Offline RL)系列3: (算法篇) AWAC算法详解与实现
    离线强化学习(Offline RL)系列3: (算法篇) AWR(Advantage-Weighted Regression)算法详解与实现
    离线强化学习(Offline RL)系列3: (算法篇) Onestep 算法详解与实现
    离线强化学习(Offline RL)系列3: (算法篇) IQL(Implicit Q-learning)算法详解与实现
    离线强化学习(Offline RL)系列3: (算法篇) CQL 算法详解与实现
    离线强化学习(Offline RL)系列3: (算法篇) TD3+BC 算法详解与实现(经验篇)
    离线强化学习(Offline RL)系列3: (算法篇) REM(Random Ensemble Mixture)算法详解与实现
    离线强化学习(Offline RL)系列3: (算法篇)策略约束 - BRAC算法原理详解与实现(经验篇)
    离线强化学习(Offline RL)系列3: (算法篇)策略约束 - BEAR算法原理详解与实现
    离线强化学习(Offline RL)系列3: (算法篇)策略约束 - BCQ算法详解与实现
    离线强化学习(Offline RL)系列2: (环境篇)D4RL数据集简介、安装及错误解决
    离线强化学习(Offline RL)系列1:离线强化学习原理入门

  • 相关阅读:
    shell脚本实战案例---数据库的备份
    华中师范-刘教授-AI赋能教师教学
    python爬虫之爬取携程景点评价(5)
    webSocket-01
    通过yarn提交作业到spark,运行一段时间后报错。
    Linux 软件包管理器 yum
    《21天精通TypeScript-6》-数组类型
    单链表的基本操作(C语言+图解分析)
    优化计算属性mapState、mapGetters和methods的mapActions、mapMutations
    在域控批量导出用户及其所在路径的信息
  • 原文地址:https://blog.csdn.net/gsww404/article/details/126340751
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号