Ray：如何在一个 GPU 上运行多个 Actor？

Question

Ray：如何在一个 GPU 上运行多个 Actor？

我只有一个 GPU，我想在该 GPU 上运行许多 Actor。这是我使用的ray，遵循https://ray.readthedocs.io/en/latest/actors.html

首先在GPU上定义网络

class Network():
    def __init__(self, ***some args here***):
        self._graph = tf.Graph()
        os.environ['CUDA_VISIBLE_DIVICES'] = ','.join([str(i) for i in ray.get_gpu_ids()])
        with self._graph.as_default():
            with tf.device('/gpu:0'):
                # network, loss, and optimizer are defined here

        sess_config = tf.ConfigProto(allow_soft_placement=True)
        sess_config.gpu_options.allow_growth=True
        self.sess = tf.Session(graph=self._graph, config=sess_config)
        self.sess.run(tf.global_variables_initializer())
        atexit.register(self.sess.close)

        self.variables = ray.experimental.TensorFlowVariables(self.loss, self.sess)

Run Code Online (Sandbox Code Playgroud)

然后定义工人阶级

@ray.remote(num_gpus=1)
class Worker(Network):
    # do something

Run Code Online (Sandbox Code Playgroud)

定义学习者类别

@ray.remote(num_gpus=1)
class Learner(Network):
    # do something

Run Code Online (Sandbox Code Playgroud)

训练功能

def train():
    ray.init(num_gpus=1)
    leaner = Learner.remote(...)
    workers = [Worker.remote(...) for i in range(10)]
    # do something

Run Code Online (Sandbox Code Playgroud)

当我不尝试让它在 GPU 上工作时，这个过程工作得很好。也就是说，当我删除所有with tf.device('/gpu:0')和时，它工作正常(num_gpus=1)。当我保留它们时，麻烦就出现了：似乎只有它们learner被创建，但没有一个workers被构造。我应该做什么才能让它发挥作用？

Answer 1

Rob*_*ara 7

当您使用装饰器定义一个 Actor 类时@ray.remote(num_gpus=1)，您是说从该类创建的任何 Actor 都必须在该 Actor 的生命周期内为其保留一个 GPU。由于您只有一个 GPU，因此您只能创建一个这样的 actor。

如果你想让多个 Actor 共享一个 GPU，那么你需要指定每个 Actor 需要少于 1 个 GPU，例如，如果你希望在 4 个 Actor 之间共享一个 GPU，那么你可以让每个 Actor 需要 1/4 GPU 的。这可以通过声明 actor 类来完成

@ray.remote(num_gpus=0.25)

Run Code Online (Sandbox Code Playgroud)

此外，您需要确保每个参与者确实尊重您对其设置的限制。例如，如果您想使用声明一个 actor @ray.remote(num_gpus=0.25)，那么您还应该确保 TensorFlow 最多使用四分之一的 GPU 内存。请参阅如何防止张量流分配全部 GPU 内存？例如。

归档时间：	7 年前
查看次数：	3771 次
最近记录：	2 年，4 月前