Edm*_*arp 5 machine-learning reinforcement-learning q-learning
人们如何处理不同州的法律行动不同的问题?就我而言,我总共有大约 10 个诉讼,这些法律诉讼不重叠,这意味着在某些州,相同的 3 个州始终是合法的,而这些州在其他类型的州永远不合法。
我也有兴趣看看如果法律诉讼重叠,解决方案是否会有所不同。
对于 Q 学习(我的网络为我提供状态/动作对的值),我在想也许我可以在构建目标值时小心选择哪个 Q 值。(即我没有选择最大值,而是选择法律行动中的最大值......)
对于策略梯度类型的方法,我不太确定适当的设置是什么。计算损失时只屏蔽输出层可以吗?
不确定我是否正确理解你的问题,但如果你的意思是在某些状态下某些动作是不可能的,那么你只需将其反映在奖励函数中(大负值)。如果不清楚非法行为会导致什么状态,您甚至可以决定结束该事件。然后代理应该知道这些行为在特定状态下是不可取的。
在探索模式下,智能体仍可能选择采取非法行动。然而,在利用模式下应该避免它们。
| 归档时间: |
|
| 查看次数: |
2640 次 |
| 最近记录: |