TensorFlow图中复制示例

Question

TensorFlow图中复制示例

我想在具有多个ps和worker的多GPU集群中试验TensorFlow的图形内复制.所述CIFAR-10多GPU示例示出了在一台机器上图形同步复制.是否有一个可用的示例,我可以参考示例培训程序进行图形间培训？

Answer 1

一般来说,我们更喜欢图形复制而非图形复制用于分布式培训,因为图形间复制更具可扩展性(当前实现)图形内复制.图中复制的主要问题是,它目前要求您为网络构建图形结构的多个副本,并在单个位置(即分布式主节点)实现它们.当你有数百个副本时,这会使主人成为瓶颈; 相反,在图形复制之间,每个副本只有一个本地运行的图形副本.

图之间复制的缺点是它使同步训练更加困难,因为您现在有多个训练循环来进行同步,而不是单个循环与单个训练操作.将tf.train.SyncReplicasOptimizer在使用分布式盗梦师提供了做与图形之间复制同步训练的一种方式.

但是,如果要尝试图形内复制,可以通过修改将设备分配给 CIFAR-10示例中每个塔的线来完成.您可以将它们分配给不同工作任务中的不同GPU,而不是将塔分配给同一进程中的不同GPU .例如:

worker_devices = ["/job:worker/task:0/gpu:0", ..., "/job:worker/task:7/gpu:0"]

for worker_device in worker_devices:
  with tf.device(worker_device):
    # Execute code for building the model replica.

Run Code Online (Sandbox Code Playgroud)

归档时间：	9 年，5 月前
查看次数：	2306 次
最近记录：	9 年，1 月前