码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Value-Based RL


    Value-Based RL

    0.含折扣的回报(Discounted Return)

    在这里插入图片描述

    U t U_t Ut​ 等于从 t t t时刻开始的奖励之和,并且给未来的奖励一个折扣率 γ ∈ [ 0 , 1 ] \gamma \in [0,1] γ∈[0,1]

    U t U_t Ut​ 是一个随机变量,其不确定性来自于未来的状态和动作,动作是通过策略函数随机得到,状态是通过状态转移函数随机得到。

    1.动作价值函数

    在这里插入图片描述

    用 Q π ( s t , a t ) Q_\pi(s_t,a_t) Qπ​(st​,at​) 表示 U t U_t Ut​ 的期望,该函数进行评估在策略 π \pi π 下状态 s t s_t st​执行动作 a t a_t at​的好坏。

    关于为什么用Q缩写来表示的原因:

    有一篇论文提到了,但是貌似是猜测。
    在这里插入图片描述
    [Christopher Watkins Learning From Delayed Rewards]

    Quantity 貌似说不通,衡量动作的好坏的函数用数量(?)缩写,我觉得用Quality(质量)更加贴切,类似评价物品的好坏,用Quality一样。


    在这里插入图片描述

    我们定义最优动作价值函数 Q ∗ ( s t , a t ) Q^*(s_t,a_t) Q∗(st​,at​)来表示在所有策略下的最大 Q Q Q,通过这个函数我们可以找到最优的 a t a_t at​。


    2.DQN(Deep Q Network)

    在这里插入图片描述

    为了近似这个 Q ∗ Q^* Q∗函数,我们便使用价值网络(DQN)来近似该函数。


    在这里插入图片描述

    DQN的输入就是状态 s t s_t st​,通过卷积层提取特征向量,在经过全连接层得到每个动作对应的价值。


    在这里插入图片描述

    通过该网络,我们便可以觉得每次执行什么动作 a t a_t at​,然后得到外界的奖励 r t r_t rt​ 和新一轮的状态 s t + 1 s_{t+1} st+1​,从而不断地执行下去。


    3.TD算法

    用来训练价值网络地算法称为:Temporal Difference (TD) Learning,时间差分序列算法。

    在这里插入图片描述

    在这里插入图片描述

    上图是一个TD算法的实例,用来估计两地距离。

    把它应用到DQN中,就是如下图所示。

    在这里插入图片描述

    可以看到, Q Q Q值由真实值和模型预测值组成。

    在这里插入图片描述

    我们对回报Return的期望进行变形,便可以得到与TD算法类似的等式关系。

    在这里插入图片描述


    在这里插入图片描述

    通过该算法,我们便可以求出TD的目标函数 y t y_t yt​ ,计算损失 L o s s Loss Loss,然后进行梯度下降训练网络。

    4.总结

    在这里插入图片描述

  • 相关阅读:
    uniapp大概是怎么个开发法(前端)
    搭个ChatGPT算法模型,离Java程序员有多远?
    C语言练习题解析:挑战与突破,开启编程新篇章!(4)
    信息论笔记:信息量+熵+相对熵+交叉熵+损失函数
    神经网络的图像识别技术,语音识别深度神经网络
    带你掌握Java各种日志框架
    git 提交时屏蔽本地无需上传的文件
    04.智慧商城——短信验证码倒计时、登录请求、响应拦截器统一处理、请求loading效果
    Jmeter接口自动化生成测试报告html格式
    C++11常用特性
  • 原文地址:https://blog.csdn.net/weixin_45750972/article/details/126773064
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号