这个式子π * =arg max Vπ(s)s属于S--中的arg max下有π 有人说是变元的意思,应该是对的,只是我还不能理解,是什么回事,

来源:学生作业帮助网 编辑:作业帮 时间:2024/05/05 07:11:28
这个式子π * =arg max Vπ(s)s属于S--中的arg max下有π 有人说是变元的意思,应该是对的,只是我还不能理解,是什么回事,

这个式子π * =arg max Vπ(s)s属于S--中的arg max下有π 有人说是变元的意思,应该是对的,只是我还不能理解,是什么回事,
这个式子π * =arg max Vπ(s)s属于S--中的arg
max下有π 有人说是变元的意思,应该是对的,只是我还不能理解,是什么回事,

这个式子π * =arg max Vπ(s)s属于S--中的arg max下有π 有人说是变元的意思,应该是对的,只是我还不能理解,是什么回事,
是argument 参数的意思吧

你好我在强化学习里看到这个式子,这个“arg”的意义是,等号右边最终要找的是某一个“π”,也就是你所说的“max下有π”。试想,如果没有arg以及max下的π,等号右边求出的是某一个Vπ(s),这样就不符合定义π *的愿意了。