如何在Q学习中计算MaxQ?

用户名

我正在实现Q学习,特别是Bellman方程。贝尔曼方程

我正在使用一个指导他解决问题网站的版本,但我有一个问题:对于maxQ,我是否使用新状态(s')的所有Q表值来计算最大奖励-在我的情况下4动作(a'),并且在执行该动作(a')时,每个位置都有各自的值-或所有位置的Q表值的总和?

换句话说,我使用所有可能执行的动作中的最高Q值,还是所有“相邻”平方的总Q值?

尼古拉·祖比奇(Nikola Zubic)

您始终对所有可能采取的措施使用最大Q值。

想法是选择具有下一个状态的最大(最佳)Q值的动作,以保持在最佳策略Qpi *中。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何在机器学习中计算日志损失

来自分类Dev

如何在机器学习中计算日志损失

来自分类Dev

如何在pyspark中计算?

来自分类Dev

如何在Hive中计算中位数

来自分类Dev

如何在SQL中计算“运行总计”

来自分类Dev

如何在RX中计算处理时间

来自分类Dev

如何在PostgreSQL中计算最大列

来自分类Dev

如何在mysql中计算复合主键

来自分类Dev

如何在Excel中计算元素

来自分类Dev

如何在mySQL表中计算票数?

来自分类Dev

如何在AngularJS中计算地图大小

来自分类Dev

如何在蜂巢中计算累计薪水

来自分类Dev

如何在Matlab中计算每页STD?

来自分类Dev

如何在Excel中计算总和

来自分类Dev

如何在Slick 2.0中计算(*)?

来自分类Dev

如何在Firebase中计算连接

来自分类Dev

如何在bash中计算arccos()?

来自分类Dev

如何在mysql中计算权重

来自分类Dev

如何在Django模板中计算时差

来自分类Dev

如何在Netlogo中计算死海龟

来自分类Dev

如何在BigQuery中计算年龄?

来自分类Dev

如何在WPF中计算形状的方向

来自分类Dev

如何在SQL中计算平均日期?

来自分类Dev

如何在Hive中计算日期差

来自分类Dev

如何在SQL中计算累积时差

来自分类Dev

如何在Liquid中计算变量+1

来自分类Dev

如何在MATLAB中计算环的半径?

来自分类Dev

如何在javascript中计算点值?

来自分类Dev

如何在Erlang中计算5 ^ 262144