【强化学习笔记】强化学习中的常见符号

                        
                    符号符号释义

           ≐
          
          \doteq
         
       ≐定义符号

           ≈
          
          \approx
         
       ≈约等于

           ϵ
          
          \epsilon
         
       ϵ
       
           ϵ
          
          \epsilon
         
       ϵ贪心策略中随机采取动作的概率

           γ
          
          \gamma
         
       γ折扣系数

           λ
          
          \lambda
         
       λ迹中的衰减率

           ←
          
          \leftarrow
         
       ←赋值符号

           s
          
          s
         
       s, 
       
            s
           
            ′
           
          s'
         
       s′状态 
       
           s
          
          s
         
       s

           a
          
          a
         
       a动作 
       
           a
          
          a
         
       a

           r
          
          r
         
       r收益 
       
           r
          
          r
         
       r

           t
          
          t
         
       t离散的时间步，或称为时刻

           π
          
          \pi
         
       π策略（决策规则）

           π
          
           (
          
           s
          
           )
          
          \pi(s)
         
       π(s)根据确定性策略 
       
           π
          
          \pi
         
       π 在状态 
       
           s
          
          s
         
       s 时选取的动作

           π
          
           (
          
           a
          
           ∣
          
           s
          
           )
          
          \pi(a|s)
         
       π(a∣s)根据随机性策略 
       
           π
          
          \pi
         
       π 在状态 
       
           s
          
          s
         
       s 时选取的动作 
       
           a
          
          a
         
       a 的概率

            A
           
            t
           
          A_{t}
         
       At​
       
           t
          
          t
         
       t 时刻的动作

            S
           
            t
           
          S_{t}
         
       St​
       
           t
          
          t
         
       t 时刻的状态，通常由 
       
            S
           
             t
            
             −
            
             1
            
          S_{t-1}
         
       St−1​ 和 
       
            A
           
             t
            
             −
            
             1
            
          A_{t-1}
         
       At−1​ 随机决定

            R
           
            t
           
          R_{t}
         
       Rt​
       
           t
          
          t
         
       t 时刻的收益，通常由 
       
            S
           
             t
            
             −
            
             1
            
          S_{t-1}
         
       St−1​ 和 
       
            A
           
             t
            
             −
            
             1
            
          A_{t-1}
         
       At−1​ 随机决定

            G
           
            t
           
          G_t
         
       Gt​
       
           t
          
          t
         
       t 时刻的回报（是个期望值）

           p
          
           (
          
            s
           
            ′
           
           ,
          
           r
          
           ∣
          
           s
          
           ,
          
           a
          
           )
          
          p(s', r |s, a)
         
       p(s′,r∣s,a)从状态 
       
           s
          
          s
         
       s 采取动作 
       
           a
          
          a
         
       a 转移到状态 
       
            s
           
            ′
           
          s'
         
       s′ 并获得收益 
       
           r
          
          r
         
       r 的概率

           p
          
           (
          
            s
           
            ′
           
           ∣
          
           s
          
           ,
          
           a
          
           )
          
          p(s' |s, a)
         
       p(s′∣s,a)从状态 
       
           s
          
          s
         
       s 采取动作 
       
           a
          
          a
         
       a 转移到状态 
       
            s
           
            ′
           
          s'
         
       s′ 的概率

           r
          
           (
          
           s
          
           ,
          
           a
          
           )
          
          r(s, a)
         
       r(s,a)从状态 
       
           s
          
          s
         
       s 采取动作 
       
           a
          
          a
         
       a 获得的即时收益的期望

           r
          
           (
          
           s
          
           ,
          
           a
          
           ,
          
            s
           
            ′
           
           )
          
          r(s, a, s')
         
       r(s,a,s′)从状态 
       
           s
          
          s
         
       s 采取动作 
       
           a
          
          a
         
       a 转移到状态 
       
            s
           
            ′
           
          s'
         
       s′ 获得的即时收益的期望

            v
           
            π
           
           (
          
           s
          
           )
          
          v_\pi(s)
         
       vπ​(s)状态 
       
           s
          
          s
         
       s 在策略 
       
           π
          
          \pi
         
       π 下的价值（期望回报）

            v
           
            ∗
           
           (
          
           s
          
           )
          
          v_*(s)
         
       v∗​(s)状态 
       
           s
          
          s
         
       s 在最优策略下的价值

            q
           
            π
           
           (
          
           s
          
           ,
          
           a
          
           )
          
          q_\pi(s, a)
         
       qπ​(s,a)状态 
       
           s
          
          s
         
       s 在策略 
       
           π
          
          \pi
         
       π 下采取动作 
       
           a
          
          a
         
       a 的价值

            q
           
            ∗
           
           (
          
           s
          
           ,
          
           a
          
           )
          
          q_*(s, a)
         
       q∗​(s,a)状态 
       
           s
          
          s
         
       s 在最优策略下采取动作 
       
           a
          
          a
         
       a 的价值

           V
          
          V
         
       V, 
       
            V
           
            t
           
          V_{t}
         
       Vt​状态价值函数

           Q
          
          Q
         
       Q, 
       
            Q
           
            t
           
          Q_{t}
         
       Qt​动作价值函数

相关阅读:
单片机最小系统
 Vue.js+Node.js全栈开发教程：Vue.js插值
 【项目管理】--敏捷开发管理之Scrum
浅谈在操控器类中，为何要通过osgGA::CameraManipulator的逆矩阵改变视点位置
 Dijkstra求最短路—priority堆优化；
垃圾分类查询管理系统
 合宙esp32 环境搭建和使用方法
 软考高项-挣值管理-TCPI
ORA-27090: Unable to reserve kernel resources for asynchronous disk I/O
数据结构与算法------栈和队列
原文地址：https://blog.csdn.net/m0_38068876/article/details/125435431

符号	符号释义
$\doteq$	定义符号
$\approx$	约等于
$\epsilon$	$\epsilon$ 贪心策略中随机采取动作的概率
$\gamma$	折扣系数
$\lambda$	迹中的衰减率
$\leftarrow$	赋值符号
$s$ , $s^{'}$	状态 $s$
$a$	动作 $a$
$r$	收益 $r$
$t$	离散的时间步，或称为时刻
$\pi$	策略（决策规则）
$\pi(s)$	根据确定性策略 $\pi$ 在状态 $s$ 时选取的动作
$\pi(a\|s)$	根据随机性策略 $\pi$ 在状态 $s$ 时选取的动作 $a$ 的概率
$A_{t}$	$t$ 时刻的动作
$S_{t}$	$t$ 时刻的状态，通常由 $S_{t-1}$ 和 $A_{t-1}$ 随机决定
$R_{t}$	$t$ 时刻的收益，通常由 $S_{t-1}$ 和 $A_{t-1}$ 随机决定
$G_t$	$t$ 时刻的回报（是个期望值）
$p (s^{'}, r ∣ s, a)$	从状态 $s$ 采取动作 $a$ 转移到状态 $s^{'}$ 并获得收益 $r$ 的概率
$p (s^{'} ∣ s, a)$	从状态 $s$ 采取动作 $a$ 转移到状态 $s^{'}$ 的概率
$r (s, a)$	从状态 $s$ 采取动作 $a$ 获得的即时收益的期望
$r (s, a, s^{'})$	从状态 $s$ 采取动作 $a$ 转移到状态 $s^{'}$ 获得的即时收益的期望
$v_\pi(s)$	状态 $s$ 在策略 $\pi$ 下的价值（期望回报）
$v_*(s)$	状态 $s$ 在最优策略下的价值
$q_\pi(s, a)$	状态 $s$ 在策略 $\pi$ 下采取动作 $a$ 的价值
$q_*(s, a)$	状态 $s$ 在最优策略下采取动作 $a$ 的价值
$V$ , $V_{t}$	状态价值函数
$Q$ , $Q_{t}$	动作价值函数