Fra*_*Fra 5 distributed tensorflow
假设我有10台机器,每台机器有2个GPU,并且我想运行一个分布式TensorFlow集群。我应该分配多少个参数服务器给VS主服务器?
一个好的启发式方法是分配最少数量的参数服务器,以使网络带宽不会成为瓶颈。
例如,假设您有1000万个参数,每个计算步骤需要1秒钟。这意味着工作人员每秒发送40MB参数更新向量,并接收相同大小的参数向量。因此,每个工作人员都需要320 Gbps的双工带宽。假设您有10名工人。使用单个参数服务器,您的PS服务器将需要3.2 Gbps带宽。
现在,假设您的网卡能够支持1 Gbps全双工。为避免以太网卡饱和,您将至少需要4个参数服务器工作程序。