Kai*_*Yun 1 reinforcement-learning tensorflow tensorboard dqn
我对 RL 很陌生,目前正在自学如何使用 tf_agents 库实现不同的算法和超参数。
在学习如何使用 TensorBoard 后,我开始想知道如何可视化 tf_agents 库中的图形。每个 TensorBoard 教程/帖子似乎都实现了自己的模型或定义 tf.function 来记录图。但是,我无法将此类方法应用于上面的教程。
如果有人可以帮助我在 TensorBoard 中使用 tf_agents 可视化模型图,我将非常感激。谢谢!
考虑一下这个 colab 笔记本是 TF-Agents 实际工作原理的一个非常简单的版本。实际上,您应该使用驱动程序来采样轨迹,而不是手动调用
agent.action(state)
env.step(action)
Run Code Online (Sandbox Code Playgroud)
在每次迭代时。该驱动程序的另一个优点是它可以轻松兼容 TF-Agents 中的所有指标。
至于你的问题是如何:
在训练开始时定义一个summary_writer,如下所示:
train_dir = os.path.join(root_dir, 'train')
train_summary_writer = tf.summary.create_file_writer(
train_dir, flush_millis=10000)
train_summary_writer.set_as_default()
Run Code Online (Sandbox Code Playgroud)
现在,每次您调用 agent.train 时,它都会刷新到此摘要编写器及其张量板文件夹train_dir。
要将一些指标添加到组合中,只需使用以下内容定义它们:
train_metrics = [
tf_metrics.NumberOfEpisodes(),
tf_metrics.EnvironmentSteps(),
tf_metrics.AverageReturnMetric(buffer_size=collect_episodes_per_epoch),
tf_metrics.AverageEpisodeLengthMetric(buffer_size=collect_episodes_per_epoch),
]
Run Code Online (Sandbox Code Playgroud)
将它们作为观察者与重播缓冲区一起传递给驱动程序,如下所示:
dynamic_episode_driver.DynamicEpisodeDriver(
tf_env,
collect_policy,
observers=replay_observer + train_metrics,
num_episodes=collect_episodes_per_epoch).run()
Run Code Online (Sandbox Code Playgroud)
之后将它们记录到您的摘要中:
for train_metric in train_metrics:
train_metric.tf_summaries(train_step=epoch_counter, step_metrics=train_metrics[:2])
Run Code Online (Sandbox Code Playgroud)
如果您想知道,step_metrics参数是将后两个指标与前两个指标进行比较。
| 归档时间: |
|
| 查看次数: |
1442 次 |
| 最近记录: |