小编Edm*_*arp的帖子

强化学习中的状态依赖动作集

人们如何处理不同州的法律行动不同的问题?就我而言,我总共有大约 10 个诉讼,这些法律诉讼不重叠,这意味着在某些州,相同的 3 个州始终是合法的,而这些州在其他类型的州永远不合法。

我也有兴趣看看如果法律诉讼重叠,解决方案是否会有所不同。

对于 Q 学习(我的网络为我提供状态/动作对的值),我在想也许我可以在构建目标值时小心选择哪个 Q 值。(即我没有选择最大值,而是选择法律行动中的最大值......)

对于策略梯度类型的方法,我不太确定适当的设置是什么。计算损失时只屏蔽输出层可以吗?

machine-learning reinforcement-learning q-learning

5
推荐指数
1
解决办法
2640
查看次数

Julia字符串插值后跟感叹号

我想做这样的事情:

function say(name, age)
    println("$name is $age!")
end
Run Code Online (Sandbox Code Playgroud)

但这给了我一个错误,因为朱莉娅认为年龄!是变量的名称.如果我在$ age和之间添加一个空格!然后打印的字符串有一个年龄和!之间的空格,我不想要.我试过了 \!我在其他地方看到但我当前的Julia版本给了我无效的转义序列错误.

julia

4
推荐指数
1
解决办法
59
查看次数