tf.agent 策略可以为所有动作返回概率向量吗？

Question

tf.agent 策略可以为所有动作返回概率向量吗？

BIN*_*HAO 5 python reinforcement-learning tensorflow2.0 tensorflow-agents

我正在尝试使用 TF-Agent TF-Agent DQN Tutorial训练强化学习代理。在我的应用程序中，我有 1 个动作，其中包含 9 个可能的离散值（标记为 0 到 8）。下面是输出env.action_spec()

BoundedTensorSpec(shape=(), dtype=tf.int64, name='action', minimum=array(0, dtype=int64), maximum=array(8, dtype=int64))

Run Code Online (Sandbox Code Playgroud)

我想得到概率向量包含所有由训练策略计算的动作，并在其他应用环境中做进一步处理。但是，该策略仅返回log_probability一个值，而不是所有操作的向量。反正有没有得到概率向量？

from tf_agents.networks import q_network
from tf_agents.agents.dqn import dqn_agent

q_net = q_network.QNetwork(
            env.observation_spec(),
            env.action_spec(),
            fc_layer_params=(32,)
        )

optimizer = tf.compat.v1.train.AdamOptimizer(learning_rate=0.001)

my_agent = dqn_agent.DqnAgent(
    env.time_step_spec(),
    env.action_spec(),
    q_network=q_net,
    epsilon_greedy=epsilon,
    optimizer=optimizer,
    emit_log_probability=True,
    td_errors_loss_fn=common.element_wise_squared_loss,
    train_step_counter=global_step)

my_agent.initialize()

...  # training

tf_policy_saver = policy_saver.PolicySaver(my_agent.policy)
tf_policy_saver.save('./policy_dir/')

# making decision using the trained policy
action_step = my_agent.policy.action(time_step)

Run Code Online (Sandbox Code Playgroud)

在dqn_agent.DqnAgent() DQNAgent 中，我设置了emit_log_probability=True，它应该定义Whether policies emit log probabilities or not.

但是，当我运行时action_step = my_agent.policy.action(time_step)，它返回

PolicyStep(action=<tf.Tensor: shape=(1,), dtype=int64, numpy=array([1], dtype=int64)>, state=(), info=PolicyInfo(log_probability=<tf.Tensor: shape=(1,), dtype=float32, numpy=array([0.], dtype=float32)>))

Run Code Online (Sandbox Code Playgroud)

我也尝试运行action_distribution = saved_policy.distribution(time_step)，它返回

PolicyStep(action=<tfp.distributions.DeterministicWithLogProbCT 'Deterministic' batch_shape=[1] event_shape=[] dtype=int64>, state=(), info=PolicyInfo(log_probability=<tf.Tensor: shape=(), dtype=float32, numpy=0.0>))

Run Code Online (Sandbox Code Playgroud)

如果TF.Agent中没有这样的API，有没有办法得到这样的概率向量？谢谢。

后续问题：

如果我理解正确，深度 Q 网络应该state从状态中获取每个动作的输入并输出 Q 值。我可以将这个 Q 值向量传递给 softmax 函数并计算相应的概率向量。实际上我已经用我自己定制的 DQN 脚本（没有 TF-Agent）完成了这样的计算。那么问题就变成了：如何从 TF-Agent 返回 Q 值向量？

Answer 1

Fed*_*rba 1

在 TF-Agents 框架中执行此操作的唯一方法是调用Policy.distribution()方法而不是操作方法。这将返回根据网络 Q 值计算出的原始分布。只emit_log_probability=True影响返回的namedtupleinfo的属性。请注意，此分布可能会受到您传递的操作约束的影响（如果您这样做）；由此，非法行为将被标记为概率为 0（即使原始 Q 值可能很高）。PolicyStepPolicy.action()

此外，如果您想查看实际的 Q 值而不是它们生成的分布，那么恐怕如果不直接作用于代理附带的 Q 网络（这也是附加到Policy代理生成的对象）。如果您想了解如何正确调用该 Q 网络，我建议您查看此处的QPolicy._distribution()方法是如何执行的。

请注意，使用预先实现的驱动程序无法完成所有这些操作。您必须显式构造自己的收集循环或实现自己的 Driver 对象（基本上是等效的）。

归档时间：	5 年，6 月前
查看次数：	374 次
最近记录：	4 年，8 月前