为什么要使用 tf.train.Server 并行执行多个 tf.Session() ？

Question

为什么要使用 tf.train.Server 并行执行多个 tf.Session() ？

Mat*_*nge 3 python parallel-processing distributed-computing multiprocessing tensorflow

执行多个官方方式tf.Session()并联是利用tf.train.Server如上述分布式TensorFlow 。另一方面，根据Keras + Tensorflow 和 Python 中的多处理，以下内容适用于 Keras，并且可以在不使用 tf.train.Server 的情况下将其修改为 Tensorflow 。

def _training_worker(train_params):
    import keras
    model = obtain_model(train_params)
    model.fit(train_params)
    send_message_to_main_process(...)

def train_new_model(train_params):
    training_process = multiprocessing.Process(target=_training_worker, args = train_params)
    training_process.start()
    get_message_from_training_process(...)
    training_process.join()

Run Code Online (Sandbox Code Playgroud)

第一种方法比第二种方法快吗？我有一个用第二种方式编写的代码，由于我的算法 (AlphaZero) 的性质，单个 GPU 应该运行多个进程，每个进程都执行对小批量的预测。

Answer 1

Max*_*xim 5

tf.train.Server当需要在不同节点之间进行通信时，专为集群内的分布式计算而设计。当训练分布在多台机器上或在某些情况下分布在一台机器上的多个 GPU 上时，这尤其有用。从文档：

一个进程内 TensorFlow 服务器，用于分布式训练。

一个tf.train.Server实例封装了一组设备和一个tf.Session可以参与分布式训练的目标。服务器属于一个集群（由 a 指定tf.train.ClusterSpec），并对应于命名作业中的特定任务。该服务器可以与同一集群中的任何其他服务器进行通信。

生成多个进程multiprocessing.Process并不是 Tensorflow 意义上的集群，因为子进程之间没有交互。这种方法更容易设置，但仅限于一台机器。既然你说你只有一台机器，这可能不是一个强有力的论据，但如果你计划扩展到一组机器，你将不得不重新设计整个方法。

tf.train.Server因此是一个更通用和可扩展的解决方案。此外，它允许通过一些非平凡的通信组织复杂的训练，例如异步梯度更新。训练是否更快在很大程度上取决于任务，我认为在一个共享 GPU 上不会有显着差异。

仅供参考，以下是服务器上的代码（在图形复制示例之间）：

# specify the cluster's architecture cluster = tf.train.ClusterSpec({ 'ps': ['192.168.1.1:1111'], 'worker': ['192.168.1.2:1111', '192.168.1.3:1111'] }) # parse command-line to specify machine job_type = sys.argv[1] # job type: "worker" or "ps" task_idx = sys.argv[2] # index job in the worker or ps list as defined in the ClusterSpec # create TensorFlow Server. This is how the machines communicate. server = tf.train.Server(cluster, job_name=job_type, task_index=task_idx) # parameter server is updated by remote clients. # will not proceed beyond this if statement. if job_type == 'ps': server.join() else: # workers only with tf.device(tf.train.replica_device_setter(worker_device='/job:worker/task:' + task_idx, cluster=cluster)): # build your model here as if you only were using a single machine pass with tf.Session(server.target): # train your model here pass
Run Code Online (Sandbox Code Playgroud)

归档时间：	7 年，9 月前
查看次数：	1247 次
最近记录：	7 年，9 月前