如何在AWS集群上运行TensorFlow?

cha*_*der 9 python amazon-ec2 amazon-web-services tensorflow

我正在尝试在EMR/EC2集群上运行分布式tensorflow,但我不知道如何在集群中指定不同的实例来运行部分代码.

在文档中,他们习惯于tf.device("/gpu:0")指定一个gpu.但是如果我在EMR集群中运行主CPU和5个不同的从GPU实例并且我想指定那些GPU来运行某些代码呢?我无法输入tf.device()实例的公有DNS名称,因为它会抛出一个错误,说明名称无法解析.

pfm*_*pfm 1

自您提出问题以来,AWS 发布了一些代码来简化 EC2 集群上分布式 TensorFlow 的使用。

请参阅此github 存储库。README.md 中描述了所有内容,但简短的故事是,它将创建一个 AWS 堆栈

  • 安全组
  • 弹性文件系统
  • EC2 实例上安装了 AWS 深度学习 AMI 和 EFS,
  • 将配置 EC2 实例,以便您可以通过在主节点上运行命令来轻松运行分布式张量流(请参阅在 TensorFlow 上运行分布式训练部分)。