本文章是学习 俞勇《动手学强化学习》这本书的记录。
github代码链接: https://github.com/boyu-ai/Hands-on-RL
课程链接: 伯禹学习平台-动手学强化学习
1.价值函数是对于 未来累积奖励 的预测,评估给定策略下 状态 的好坏。
2.基于模型 的强化学习和 模型无关 的强化学习的根本区别在于学习过程中有没有环境模型。
1.在策略学习过程中,往往需要进行新策略探索与旧策略的利用, 以实现 尝试不同策略,以进行策略提升/提升对旧策略的评估能力。
2. ϵ-greedy算法 不具有 次线性收敛保证, 衰减ϵ-greedy算法 才具有次线性收敛保证
1.马尔科夫决策过程(Markov decision process, MDP)可以由状态集合、动作集合、状态转移概率、折扣因子、奖励函数构成的五元组表示。
2.马尔科夫决策过程
~~
数学特性:提供了一套结果部分随机、部分在决策者的控制下的决策过程建模的数学框架
~~
状态的性质:从历史中捕获所有相关信息 ;
~~
对于强化学习的意义:形式化地描述了一种强化学习的环境 ;
3.马尔科夫决策过程的当前状态是未来的充分统计量。
4.马尔科夫性质: 当前状态可以完全表征过程。
1.价值迭代 是 贪心 更新法
2.策略迭代中,用 Bellman等式 更新价值函数代价很大。
3.策略迭代 更适合 空间较小 的马尔科夫决策过程, 价值迭代 更适合 空间较大 的马尔科夫决策过程。
4.MDP(马尔科夫决策过程)的目标是选择可以最大化 累积奖励期望 的动作。
5.达成MDP目标的方法是可以对 最优价值函数 和 最优策略 执行迭代更新。
6.价值迭代使用 Bellman等式 对价值函数进行迭代更新
V
(
s
)
=
R
(
s
)
+
m
a
x
α
∈
A
γ
∑
s
′
∈
S
P
s
α
(
s
′
)
V
(
s
′
)
V(s) = R(s)+max_{\alpha \in A \gamma} \sum_{s'\in S}P_{s\alpha }(s')V(s')
V(s)=R(s)+maxα∈Aγs′∈S∑Psα(s′)V(s′)
学习一个MDP模型主要是学习 状态转移概率 和 奖励函数。
2.从经验中直接学习价值函数和策略叫做 模型无关 的强化学习。(注意,这里的模型指的是环境,在强化学习中,负责决策的一般叫智能体agent)
1.蒙特卡洛策略评估使用 经验平均累计 奖励
1.ϵ贪心策略探索中,以1-ϵ的概率选择贪心策略, ϵ的概率随机选择策略。
2.时序差分学习是在线策略算法、可以基于不完整的序列进行、具有更低的方差、不是无偏的。
3.模型无关的强化学习可以被分为两类,在线策略学习和离线策略学习。