SARSA: 在SARSA算法中,Q值函数的更新是基于当前状态下采取的动作、接下来的状态、以及接下来采取的动作所获得的奖励。具体来说,SARSA使用的更新规则是: 其中,
s
s
s是当前状态,
a
a
a 是当前采取的动作,
r
r
r 是在采取动作
a
a
a 后获得的奖励,
s
′
s'
s′是接下来的状态,
a
′
a'
a′ 是在状态
s
′
s'
s′ 下采取的下一个动作,
α
\alpha
α 是学习率,
γ
\gamma
γ是折扣因子。
Q-learning: 在Q-learning算法中,Q值函数的更新是基于当前状态下采取的动作后可能获得的最大Q值。具体来说,Q-learning使用的更新规则是: 其中,
s
s
s 是当前状态,
a
a
a 是当前采取的动作,
r
r
r 是在采取动作
a
a
a 后获得的奖励,
s
′
s'
s′是接下来的状态,
α
\alpha
α是学习率,
γ
\gamma
γ 是折扣因子。