我想在具有多个ps和worker的多GPU集群中试验TensorFlow的图形内复制.所述CIFAR-10多GPU示例示出了在一台机器上图形同步复制.是否有一个可用的示例,我可以参考示例培训程序进行图形间培训?
一般来说,我们更喜欢图形复制而非图形复制用于分布式培训,因为图形间复制更具可扩展性(当前实现)图形内复制.图中复制的主要问题是,它目前要求您为网络构建图形结构的多个副本,并在单个位置(即分布式主节点)实现它们.当你有数百个副本时,这会使主人成为瓶颈; 相反,在图形复制之间,每个副本只有一个本地运行的图形副本.
图之间复制的缺点是它使同步训练更加困难,因为您现在有多个训练循环来进行同步,而不是单个循环与单个训练操作.将tf.train.SyncReplicasOptimizer在使用分布式盗梦师提供了做与图形之间复制同步训练的一种方式.
但是,如果要尝试图形内复制,可以通过修改将设备分配给 CIFAR-10示例中每个塔的线来完成.您可以将它们分配给不同工作任务中的不同GPU,而不是将塔分配给同一进程中的不同GPU .例如:
worker_devices = ["/job:worker/task:0/gpu:0", ..., "/job:worker/task:7/gpu:0"]
for worker_device in worker_devices:
with tf.device(worker_device):
# Execute code for building the model replica.
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
2306 次 |
| 最近记录: |