相关疑难解决方法(0)

分布式tensorflow:In-graph复制和Between-graph复制之间的区别

:我困惑的两个概念In-graph replicationBetween-graph replication读取时复制训练中tensorflow的官方操作方法.

  1. 在上面的链接中说

    图形内复制.在这种方法中,客户端构建一个包含一组参数的tf.Graph(在tf.Variable节点固定到/ job:ps); ...

    这是否意味着有多个 tf.Graph S IN Between-graph replication的方法吗?如果是,所提供示例中的相应代码在哪里?

  2. 虽然Between-graph replication在上面的链接中已经有一个例子,但是任何人都可以提供一个In-graph replication 实现(伪代码很好)并突出其主要区别Between-graph replication吗?

    提前致谢!


Edit_1:更多问题

非常感谢您的详细解释和主旨代码@mrry @YaroslavBulatov!在查看您的回复后,我有以下两个问题:

  1. 复制培训中有以下声明:

    图之间的复制.在这种方法中,每个/ jo​​b:worker任务都有一个单独的客户端,通常与worker任务在同一个进程中.每个客户端构建一个包含参数的类似图形(固定到/ job:ps,如前所述,使用tf.train.replica_device_setter()将它们确定性地映射到相同的任务); 以及模型的计算密集型部分的单个副本,固定到/ job:worker中的本地任务.

    我有两个与上面的单词粗体相关的子问题.

    (A)为什么我们说每个客户端构建相似的图形,但不是相同的图形?我想知道复制培训示例中每个客户端中构建的图形 应该是相同的,因为下面的图形构造代码在所有workers 中共享:

    # Build model...

    loss = ...

    global_step = tf.Variable(0)

    (B)不应该是模型的计算密集型部分的多个副本,因为我们有多个workers

  2. 复制培训中的示例是否支持多台计算机上的培训,每台计算机都有多个GPU?如果没有,我们是否可以同时使用In-graph replication每台机器上的多GPU支持培训和Between-graph …

distributed graph tensorflow

22
推荐指数
1
解决办法
6636
查看次数

标签 统计

distributed ×1

graph ×1

tensorflow ×1