use*_*033 5 python reinforcement-learning ray rllib
我是强化学习的新手,我正在使用 RLlib 在 OpenAI 健身房中研究自定义环境的 RL。创建自定义环境时,是否需要在__init__()方法中指定剧集数?另外,当我用
for _ in range(10):
trainer.train()
Run Code Online (Sandbox Code Playgroud)
在一次迭代中采取了多少时间步?它是否等于自定义环境中定义的剧集数?谢谢你。
我发现 Ray 只有当你的环境设置为“done/_terminate”时,剧集才会终止。在其他框架上运行时,算法通常有 num_steps 等超参数。我发现这一点是因为如果我的代理卡住了,它就会永远坐在那里,所以我需要在环境本身中添加最大时间步长检查。
不过,剧集的数量是在环境之外设置的。
| 归档时间: |
|
| 查看次数: |
707 次 |
| 最近记录: |