如何在TensorFlow中使用分布式DNN培训?

sol*_*les 12 python parallel-processing deep-learning tensorflow

谷歌今天发布了TensorFlow.

我一直在寻找代码,我没有在代码或API中看到有关GPU服务器集群内的培训的任何内容.

它是否具有分布式培训功能?

Cos*_*gan 15

更新:

该发布于2016年2月26日发布,由合着者Derek Murray在此处的原始版本中宣布,并使用gRPC进行进程间通信.

以前:

在上面的更新之前,尚未发布TensorFlow的分布式实现.支持分布式实施是该问题的主题,共同作者Vijay Vasudevan 写道:

我们正在努力使分布式实现可用,它目前尚未在初始版本中

杰夫迪恩后来提供了一个更新:

我们当前的内部分布式扩展与Google内部基础架构有些混淆,这就是我们首先发布单机版本的原因.该代码尚未在GitHub中,因为它目前依赖于Google代码库的其他部分,其中大部分已被修剪,但还有一些剩余部分.

我们意识到分布式支持非常重要,而且它是我们目前优先考虑的主要功能之一.


mrr*_*rry 8

它花了我们几个月,但今天标志着初始分布式TensorFlow运行时的发布.这包括支持多台机器,每台机器都有多个GPU,并由gRPC提供通信.

当前版本包含必要的后端组件,以便您可以手动组装集群并从客户端程序连接到集群.自述文件中提供了更多详细信息.