如何处理强化学习中的同时动作

Question

如何处理强化学习中的同时动作

I\xe2\x80\x99m 尝试使用强化学习来解决涉及大量同时操作的问题。例如，代理将能够采取可能导致单个动作的动作，例如射击，或者可能导致多个动作的动作，例如跳跃时射击、空手道劈砍时右转等。当所有可能的动作都发生时组合起来，我最终得到一个巨大的动作数组，比如说 1 x 2000。所以我的 LSTM 网络输出数组将具有这个大小。当然，我\xe2\x80\x99将使用字典来解码动作数组以应用动作。所以我的问题是，该操作数组是否太大？这是处理同时动作的方法吗？还有其他方法可以做到这一点吗？请随意链接您见过的任何具体示例。谢谢。

\n

Answer 1

ug2*_*409 4

我也一直在尝试为我的问题做类似的事情。您可以查看以下论文：

归档时间：	5 年，4 月前
查看次数：	4073 次
最近记录：	5 年，4 月前