A55*_*h55 2 machine-learning amazon-ec2 amazon-web-services deep-learning mxnet
我想训练一个神经网络,同时使用 MXNet 在我的 g2.8xarge EC2 实例上利用所有 4 个 GPU。我正在使用以下 AWS Deep Learning Linux 社区 AMI:
深度学习 AMI Amazon Linux - 3.3_Oct2017 - ami-999844e0)
根据这些说明,当我连接到实例时,我通过发出以下命令切换到带有 MXNet 后端的 keras v1:
source ~/src/anaconda3/bin/activate keras1.2_p2
Run Code Online (Sandbox Code Playgroud)
我还在 python 模型编译代码中添加了上下文标志,以利用 MXNet 中的 GPU:
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'], context=gpu_list)
Run Code Online (Sandbox Code Playgroud)
其中 gpu_list 旨在利用所有 4 个 GPU。
但是,每次运行代码时,我都会收到以下错误消息:
Epoch 1/300 [15:09:52] /home/travis/build/dmlc/mxnet-distro/mxnet-build/dmlc-core/include/dmlc/logging.h:308: [15:09:52] src /storage/storage.cc:113:使用 USE_CUDA=1 进行编译以启用 GPU 使用
和
运行时错误:simple_bind 错误。参数:dense_input_1: (25, 34L) [15:09:52] src/storage/storage.cc:113:使用 USE_CUDA=1 进行编译以启用 GPU 使用
我检查了 /home/ec2-user/src/mxnet 中的 config.mk 文件,它包含 USE_CUDA=1。我还发出了“made”命令来尝试使用 USE_CUDA=1 标志重新编译 MXNet - 没有变化。
我在使用 AWS 文档所说的虚拟环境时是否遇到此问题?还有其他人在使用此虚拟环境的 AWS Deep Learning Ubuntu AMI 上遇到过 MXNet 问题吗?
任何建议都非常感激 -
小智 5
这是因为 Keras Conda 环境依赖 mxnet cpu pip 包。您可以使用以下命令在 Conda 环境中安装 GPU 版本:
pip install mxnet-cu80
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
9977 次 |
| 最近记录: |