我正在使用一个指导他解决问题的网站的版本,但我有一个问题:对于maxQ,我是否使用新状态(s')的所有Q表值来计算最大奖励-在我的情况下4动作(a'),并且在执行该动作(a')时,每个位置都有各自的值-或所有位置的Q表值的总和?
换句话说,我使用所有可能执行的动作中的最高Q值,还是所有“相邻”平方的总Q值?
您始终对所有可能采取的措施使用最大Q值。
想法是选择具有下一个状态的最大(最佳)Q值的动作,以保持在最佳策略Qpi *中。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句