我正在研究 POMDP 文件格式并放弃这个和许多其他链接。我已经理解了一切,但我无法理解文件第二行中的值代表什么。它的值是奖励或成本。在别处找不到答案。感到困惑,因为在一份文件中应该可以有成本和回报,不是吗?。为什么我必须指定其中之一?在文件的其余部分也没有地方没有使用该值。
在 POMDP 中,您可以使用奖励或成本来定义学习目标。唯一的区别是,在第一种情况下,您尝试最大化价值函数,而对于成本,您尝试最小化价值函数。
在POMDP 文件中,您可以定义使用哪一个:
values: [ reward, cost ]
当求解器读取POMDP 文件时,它将解释定义R:
为奖励或成本的值。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句