• 【强化学习笔记】强化学习中的常见符号


    符号符号释义
    ≐ \doteq 定义符号
    ≈ \approx 约等于
    ϵ \epsilon ϵ ϵ \epsilon ϵ贪心策略中随机采取动作的概率
    γ \gamma γ折扣系数
    λ \lambda λ迹中的衰减率
    ← \leftarrow 赋值符号
    s s s, s ′ s' s状态 s s s
    a a a动作 a a a
    r r r收益 r r r
    t t t离散的时间步,或称为时刻
    π \pi π策略(决策规则)
    π ( s ) \pi(s) π(s)根据确定性策略 π \pi π 在状态 s s s 时选取的动作
    π ( a ∣ s ) \pi(a|s) π(as)根据随机性策略 π \pi π 在状态 s s s 时选取的动作 a a a 的概率
    A t A_{t} At t t t 时刻的动作
    S t S_{t} St t t t 时刻的状态,通常由 S t − 1 S_{t-1} St1 A t − 1 A_{t-1} At1 随机决定
    R t R_{t} Rt t t t 时刻的收益,通常由 S t − 1 S_{t-1} St1 A t − 1 A_{t-1} At1 随机决定
    G t G_t Gt t t t 时刻的回报(是个期望值)
    p ( s ′ , r ∣ s , a ) p(s', r |s, a) p(s,rs,a)从状态 s s s 采取动作 a a a 转移到状态 s ′ s' s 并获得收益 r r r 的概率
    p ( s ′ ∣ s , a ) p(s' |s, a) p(ss,a)从状态 s s s 采取动作 a a a 转移到状态 s ′ s' s 的概率
    r ( s , a ) r(s, a) r(s,a)从状态 s s s 采取动作 a a a 获得的即时收益的期望
    r ( s , a , s ′ ) r(s, a, s') r(s,a,s)从状态 s s s 采取动作 a a a 转移到状态 s ′ s' s 获得的即时收益的期望
    v π ( s ) v_\pi(s) vπ(s)状态 s s s 在策略 π \pi π 下的价值(期望回报)
    v ∗ ( s ) v_*(s) v(s)状态 s s s 在最优策略下的价值
    q π ( s , a ) q_\pi(s, a) qπ(s,a)状态 s s s 在策略 π \pi π 下采取动作 a a a 的价值
    q ∗ ( s , a ) q_*(s, a) q(s,a)状态 s s s 在最优策略下采取动作 a a a 的价值
    V V V, V t V_{t} Vt状态价值函数
    Q Q Q, Q t Q_{t} Qt动作价值函数
  • 相关阅读:
    单片机最小系统
    Vue.js+Node.js全栈开发教程:Vue.js插值
    【项目管理】--敏捷开发管理之Scrum
    浅谈在操控器类中,为何要通过osgGA::CameraManipulator的逆矩阵改变视点位置
    Dijkstra求最短路—priority堆优化;
    垃圾分类查询管理系统
    合宙esp32 环境搭建和使用方法
    软考高项-挣值管理-TCPI
    ORA-27090: Unable to reserve kernel resources for asynchronous disk I/O
    数据结构与算法------栈和队列
  • 原文地址:https://blog.csdn.net/m0_38068876/article/details/125435431