• 2022暑假强化学习记录


    前言

    本文章是学习 俞勇《动手学强化学习》这本书的记录。
    github代码链接: https://github.com/boyu-ai/Hands-on-RL
    课程链接: 伯禹学习平台-动手学强化学习



    内容笔记

    强化学习简介

    1.价值函数是对于 未来累积奖励 的预测,评估给定策略下 状态 的好坏。
    2.基于模型 的强化学习和 模型无关 的强化学习的根本区别在于学习过程中有没有环境模型。


    探索与利用

    1.在策略学习过程中,往往需要进行新策略探索与旧策略的利用, 以实现 尝试不同策略,以进行策略提升/提升对旧策略的评估能力
    2. ϵ-greedy算法 不具有 次线性收敛保证, 衰减ϵ-greedy算法 才具有次线性收敛保证


    马尔科夫决策过程

    1.马尔科夫决策过程(Markov decision process, MDP)可以由状态集合、动作集合、状态转移概率、折扣因子、奖励函数构成的五元组表示。
    2.马尔科夫决策过程
       ~~   数学特性:提供了一套结果部分随机、部分在决策者的控制下的决策过程建模的数学框架
       ~~   状态的性质:从历史中捕获所有相关信息 ;
       ~~   对于强化学习的意义:形式化地描述了一种强化学习的环境 ;
    3.马尔科夫决策过程的当前状态是未来的充分统计量。
    4.马尔科夫性质: 当前状态可以完全表征过程。


    基于动态规划的强化学习

    1.价值迭代贪心 更新法
    2.策略迭代中,用 Bellman等式 更新价值函数代价很大。
    3.策略迭代 更适合 空间较小 的马尔科夫决策过程, 价值迭代 更适合 空间较大 的马尔科夫决策过程。
    4.MDP(马尔科夫决策过程)的目标是选择可以最大化 累积奖励期望 的动作。
    5.达成MDP目标的方法是可以对 最优价值函数最优策略 执行迭代更新。
    6.价值迭代使用 Bellman等式 对价值函数进行迭代更新
    V ( s ) = R ( s ) + m a x α ∈ A γ ∑ s ′ ∈ S P s α ( s ′ ) V ( s ′ ) V(s) = R(s)+max_{\alpha \in A \gamma} \sum_{s'\in S}P_{s\alpha }(s')V(s') V(s)=R(s)+maxαAγsSPsα(s)V(s)


    基于模型的强化学习

    学习一个MDP模型主要是学习 状态转移概率奖励函数
    2.从经验中直接学习价值函数和策略叫做 模型无关 的强化学习。(注意,这里的模型指的是环境,在强化学习中,负责决策的一般叫智能体agent)


    蒙特卡洛价值预测

    1.蒙特卡洛策略评估使用 经验平均累计 奖励


    模型无关控制方法

    1.ϵ贪心策略探索中,以1-ϵ的概率选择贪心策略, ϵ的概率随机选择策略。
    2.时序差分学习是在线策略算法、可以基于不完整的序列进行、具有更低的方差、不是无偏的。
    3.模型无关的强化学习可以被分为两类,在线策略学习和离线策略学习。

  • 相关阅读:
    Spring Boot结合FFmpeg实现视频会议系统视频流处理与优化
    mac m1 m2 深度学习环境(pytorch)配置
    函数栈的变化过程
    官宣!软考机考模拟练习平台于10月16日至11月3日开放
    数据结构 | (四) Queue
    Middleware ❀ Hadoop功能与使用详解(HDFS+YARN)
    投资理财:利率下行时代应该怎样存钱?
    C#替换字符串中花括号的参数
    【JAVA】01 JAVA概述
    Docker镜像的打包与加载
  • 原文地址:https://blog.csdn.net/weixin_43850253/article/details/125596924