ixo*_*mbi 5 reinforcement-learning
I\xe2\x80\x99m 尝试使用强化学习来解决涉及大量同时操作的问题。例如,代理将能够采取可能导致单个动作的动作,例如射击,或者可能导致多个动作的动作,例如跳跃时射击、空手道劈砍时右转等。当所有可能的动作都发生时组合起来,我最终得到一个巨大的动作数组,比如说 1 x 2000。所以我的 LSTM 网络输出数组将具有这个大小。当然,我\xe2\x80\x99将使用字典来解码动作数组以应用动作。所以我的问题是,该操作数组是否太大?这是处理同时动作的方法吗?还有其他方法可以做到这一点吗?请随意链接您见过的任何具体示例。谢谢。
\n我也一直在尝试为我的问题做类似的事情。您可以查看以下论文:
| 归档时间: |
|
| 查看次数: |
4073 次 |
| 最近记录: |