我通过 tf 代理创建了一个自定义 py 环境。但是,我无法使用 py_policy.action 验证环境或在其中采取步骤,我对 time_step_specs 中排除的内容感到困惑
我尝试通过 tf_py_environment.TFPyEnvironment 转换为 tf_py_environment 并成功地使用 tf_policy 采取行动,但我仍然对其中的差异感到困惑。
import abc
import numpy as np
from tf_agents.environments import py_environment
from tf_agents.environments import tf_environment
from tf_agents.environments import tf_py_environment
from tf_agents.environments import utils
from tf_agents.specs import array_spec
from tf_agents.environments import wrappers
from tf_agents.trajectories import time_step as ts
from tf_agents.policies import random_tf_policy
import tensorflow as tf
import tf_agents
class TicTacToe(py_environment.PyEnvironment):
def __init__(self,n):
super(TicTacToe,self).__init__()
self.n = n
self.winner = None
self._episode_ended = False
self.inital_state = np.zeros((n,n))
self._state …Run Code Online (Sandbox Code Playgroud) 现在,快速匿名函数是julia固有的,我还是必须使用装饰器,还是自动实现该装饰器。另外,当我将一个函数作为参数传递给另一个函数时,可以静态键入它吗?我该怎么做才能提高运行速度。