Value-Based RL

在这里插入图片描述

$U_t$ 等于从 $t$ 时刻开始的奖励之和，并且给未来的奖励一个折扣率 $\gamma \in [0,1]$

$U_t$ 是一个随机变量，其不确定性来自于未来的状态和动作，动作是通过策略函数随机得到，状态是通过状态转移函数随机得到。

在这里插入图片描述

用 $Q_\pi(s_t,a_t)$ 表示 $U_t$ 的期望，该函数进行评估在策略 $\pi$ 下状态 $s_t$ 执行动作 $a_t$ 的好坏。

关于为什么用Q缩写来表示的原因：

有一篇论文提到了，但是貌似是猜测。
在这里插入图片描述
[Christopher Watkins Learning From Delayed Rewards]

Quantity 貌似说不通，衡量动作的好坏的函数用数量(?)缩写，我觉得用Quality(质量)更加贴切，类似评价物品的好坏，用Quality一样。

在这里插入图片描述

我们定义最优动作价值函数 $Q^*(s_t,a_t)$ 来表示在所有策略下的最大 $Q$ ，通过这个函数我们可以找到最优的 $a_t$ 。

在这里插入图片描述

为了近似这个 $Q^*$ 函数，我们便使用价值网络(DQN)来近似该函数。

在这里插入图片描述

DQN的输入就是状态 $s_t$ ，通过卷积层提取特征向量，在经过全连接层得到每个动作对应的价值。

在这里插入图片描述

通过该网络，我们便可以觉得每次执行什么动作 $a_t$ ，然后得到外界的奖励 $r_t$ 和新一轮的状态 $s_{t+1}$ ，从而不断地执行下去。

用来训练价值网络地算法称为：Temporal Difference (TD) Learning，时间差分序列算法。

在这里插入图片描述

上图是一个TD算法的实例，用来估计两地距离。

把它应用到DQN中，就是如下图所示。

在这里插入图片描述

可以看到， $Q$ 值由真实值和模型预测值组成。

在这里插入图片描述

我们对回报Return的期望进行变形，便可以得到与TD算法类似的等式关系。

在这里插入图片描述

通过该算法，我们便可以求出TD的目标函数 $y_t$ ，计算损失 $L oss$ ，然后进行梯度下降训练网络。

在这里插入图片描述

相关阅读:
uniapp大概是怎么个开发法（前端）
搭个ChatGPT算法模型，离Java程序员有多远？
C语言练习题解析：挑战与突破，开启编程新篇章！（4）
信息论笔记：信息量+熵+相对熵+交叉熵+损失函数
神经网络的图像识别技术,语音识别深度神经网络
带你掌握Java各种日志框架
git 提交时屏蔽本地无需上传的文件
04.智慧商城——短信验证码倒计时、登录请求、响应拦截器统一处理、请求loading效果
Jmeter接口自动化生成测试报告html格式
C++11常用特性

原文地址：https://blog.csdn.net/weixin_45750972/article/details/126773064