码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • PRIORITIZED EXPERIENCE REPLAY


    经验回放让在线强化学习代理记住和重用过去的经验。在之前的工作中,经验转换是从重播记忆中均匀采样的。然而,这种方法只是简单地以最初体验到的相同频率重播过渡,而不管它们的重要性。本文开发了一种经验优先级框架,以更频繁地重播重要的过渡,从而更有效地学习。在深度q网络(DQN)中使用优先体验重放,这是一种强化学习算法,在许多Atari游戏中实现了人类水平的性能。优先体验重放的DQN实现了新的技术水平,在49场比赛中有41场比赛的均匀重放超过了DQN。

    背景:

     具体来说,DQN使用了一个大的滑动窗口回放存储器,从其中均匀随机抽样,平均重新访问每个过渡8次。一般来说,经验重放可以减少学习所需的经验量,并以更多的计算和更多的内存取代它——这通常比RL代理与其环境的交互更便宜的资源。

     一些转换可能不会立即对智能体有用,但当智能体能力增加时可能会有用(Schmidhuber, 1991)。经验回放将在线学习代理从按其体验的准确顺序处理转换中解放出来。优先重放进一步解放了智能体,使其不必以相同的频率考虑转换。

    本文建议更频繁地重放具有高预期学习进展的过渡,由其时间差异(TD)误差的大小衡量

  • 相关阅读:
    MatrixOne 实战系列回顾 | 建模与多租户
    supOS APP开发者课程练习册
    力扣(674.160)补8.30
    【scala】第二章——Scala 变量和数据类型
    postgresql,postgis,Qgis
    实验室管理系统LIMS
    李呈祥:bilibili在湖仓一体查询加速上的实践与探索
    hyperf 三十一 极简DB组件
    [hadoop全分布部署]虚拟机Hadoop集群配置/etc/hosts、配置无密码登录(SSH)
    Day 11 python学习笔记
  • 原文地址:https://blog.csdn.net/zj_18706809267/article/details/126709855
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号