AMD plaidml 与 CPU Tensorflow - 意想不到的结果

Question

AMD plaidml 与 CPU Tensorflow - 意想不到的结果

Hen*_*are 4 python machine-learning python-3.x keras tensorflow

我目前正在运行一个简单的脚本来训练mnist数据集。

通过 Tensorflow 通过我的 CPU 运行训练49us/sample使用以下代码为我提供了一个 3e epoch：-

# CPU

import tensorflow as tf
mnist = tf.keras.datasets.mnist

(x_train, y_train), (x_test, y_test) = mnist.load_data()

x_train = tf.keras.utils.normalize(x_train, axis=1)
x_test = tf.keras.utils.normalize(x_test, axis=1)

model = tf.keras.models.Sequential()
model.add(tf.keras.layers.Flatten())
model.add(tf.keras.layers.Dense(128, activation=tf.nn.relu))
model.add(tf.keras.layers.Dense(128, activation=tf.nn.relu))
model.add(tf.keras.layers.Dense(10, activation=tf.nn.softmax))

model.compile(optimizer='adam', loss="sparse_categorical_crossentropy", metrics=["accuracy"])

model.fit(x_train, y_train, epochs=3)

Run Code Online (Sandbox Code Playgroud)

当我使用opencl_amd_radeon_pro_580_compute_enginevia plaidml 设置通过我的 AMD Pro 580 运行数据集时，我249us/sample使用以下代码在 15s 时期获得以下结果：-

# GPU

import plaidml.keras
plaidml.keras.install_backend()
import keras
from keras.datasets import mnist

(x_train, y_train), (x_test, y_test) = mnist.load_data()

x_train = keras.utils.normalize(x_train, axis=1)
x_test = keras.utils.normalize(x_test, axis=1)

model = keras.models.Sequential()
model.add(keras.layers.Flatten())
model.add(keras.layers.Dense(128, activation='relu'))
model.add(keras.layers.Dense(128, activation='relu'))
model.add(keras.layers.Dense(10, activation='softmax'))

model.compile(optimizer='adam', loss="sparse_categorical_crossentropy", metrics=["accuracy"])

model.fit(x_train, y_train, epochs=3)

Run Code Online (Sandbox Code Playgroud)

我可以看到我的 CPU 为 CPU 测试而启动，而我的 GPU 为 GPU 测试而最大化，但我很困惑为什么 CPU 的性能比 GPU 高 5 倍。

这应该是预期的结果吗？

我的代码做错了吗？

Answer 1

sas*_*rov 7

看来我至少为 macOS/Keras/AMD GPU 设置找到了正确的解决方案。

特尔；博士：

千万不能使用的OpenCL，使用*metal来代替。
千万不能使用Tensorflow 2.0，使用Keras仅API

以下是详细信息：

跑plaidml-setup和捡金属这很重要！

...
Multiple devices detected (You can override by setting PLAIDML_DEVICE_IDS).
Please choose a default device:

   1 : llvm_cpu.0
   2 : metal_intel(r)_uhd_graphics_630.0
   3 : metal_amd_radeon_pro_560x.0

Default device? (1,2,3)[1]:3
...

Run Code Online (Sandbox Code Playgroud)

确保您保存了更改：

Save settings to /Users/alexanderegorov/.plaidml? (y,n)[y]:y
Success!

Run Code Online (Sandbox Code Playgroud)

现在运行 MNIST 示例，您应该看到如下内容：

INFO:plaidml:Opening device "metal_amd_radeon_pro_560x.0"

Run Code Online (Sandbox Code Playgroud)

就是这个。我使用plaidbench keras mobilenet以下方法进行了比较：

metal_amd_radeon_pro_560x.0最快！

示例完成，经过：0.435s（编译），8.057s（执行）

opencl_amd_amd_radeon_pro_560x_compute_engine.0

示例完成，经过：3.197s（编译），14.620s（执行）

llvm_cpu.0

示例完成，经过：3.619s（编译），47.837s（执行）

Answer 2

sta*_*an0 6

我认为观察到的情况有两个方面：

plaidml 根据我的经验并不是那么好，遗憾的是我也得到了类似的结果。
将数据移动到 GPU 的速度很慢。在这种情况下，MNIST 数据非常小，将数据移动到那里的时间超过了并行计算的“好处”。实际上，TF CPU 可能也进行并行矩阵乘法，但由于数据很小且更接近处理单元，因此速度要快得多。

归档时间：	5 年，11 月前
查看次数：	3254 次
最近记录：	5 年，4 月前