PRIORITIZED EXPERIENCE REPLAY

经验回放让在线强化学习代理记住和重用过去的经验。在之前的工作中，经验转换是从重播记忆中均匀采样的。然而，这种方法只是简单地以最初体验到的相同频率重播过渡，而不管它们的重要性。本文开发了一种经验优先级框架，以更频繁地重播重要的过渡，从而更有效地学习。在深度q网络(DQN)中使用优先体验重放，这是一种强化学习算法，在许多Atari游戏中实现了人类水平的性能。优先体验重放的DQN实现了新的技术水平，在49场比赛中有41场比赛的均匀重放超过了DQN。

背景：

具体来说，DQN使用了一个大的滑动窗口回放存储器，从其中均匀随机抽样，平均重新访问每个过渡8次。一般来说，经验重放可以减少学习所需的经验量，并以更多的计算和更多的内存取代它——这通常比RL代理与其环境的交互更便宜的资源。

一些转换可能不会立即对智能体有用，但当智能体能力增加时可能会有用(Schmidhuber, 1991)。经验回放将在线学习代理从按其体验的准确顺序处理转换中解放出来。优先重放进一步解放了智能体，使其不必以相同的频率考虑转换。

本文建议更频繁地重放具有高预期学习进展的过渡，由其时间差异(TD)误差的大小衡量

相关阅读:
MatrixOne 实战系列回顾 | 建模与多租户
supOS APP开发者课程练习册
力扣（674.160）补8.30
【scala】第二章——Scala 变量和数据类型
postgresql,postgis,Qgis
实验室管理系统LIMS
李呈祥：bilibili在湖仓一体查询加速上的实践与探索
hyperf 三十一极简DB组件
[hadoop全分布部署]虚拟机Hadoop集群配置/etc/hosts、配置无密码登录（SSH）
Day 11 python学习笔记

原文地址：https://blog.csdn.net/zj_18706809267/article/details/126709855