无论如何，要在配备 Apple Silicon（M1、M1 Pro、M1 Max）GPU 的 Mac 中使用 Tensorflow 吗？

Question

无论如何，要在配备 Apple Silicon（M1、M1 Pro、M1 Max）GPU 的 Mac 中使用 Tensorflow 吗？

我有一台配备 M1 Max 处理器的 MacBook Pro，我想在该 GPU 上运行 Tensorflow。我已按照https://developer.apple.com/metal/tensorflow-plugin中的步骤进行操作，但我不知道为什么它在我的 GPU 上运行速度较慢。我使用谷歌官方页面的MNIST 教程进行了测试）。

我尝试过的代码

import tensorflow as tf
import tensorflow_datasets as tfds

DISABLE_GPU = False

if DISABLE_GPU:
    try:
        # Disable all GPUS
        tf.config.set_visible_devices([], 'GPU')
        visible_devices = tf.config.get_visible_devices()
        for device in visible_devices:
            assert device.device_type != 'GPU'
    except:
        # Invalid device or cannot modify virtual devices once initialized.
        pass

print(tf.__version__)

(ds_train, ds_test), ds_info = tfds.load('mnist', split=['train', 'test'], shuffle_files=True, as_supervised=True,
                                         with_info=True)


def normalize_img(image, label):
    return tf.cast(image, tf.float32) / 255., label


ds_train = ds_train.map(normalize_img, num_parallel_calls=tf.data.AUTOTUNE)
ds_train = ds_train.cache()
ds_train = ds_train.shuffle(ds_info.splits['train'].num_examples)
ds_train = ds_train.batch(128)
ds_train = ds_train.prefetch(tf.data.AUTOTUNE)
ds_test = ds_test.map(
    normalize_img, num_parallel_calls=tf.data.AUTOTUNE)
ds_test = ds_test.batch(128)
ds_test = ds_test.cache()
ds_test = ds_test.prefetch(tf.data.AUTOTUNE)

model = tf.keras.models.Sequential([
    tf.keras.layers.Flatten(input_shape=(28, 28)),
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dense(10)
])
model.compile(
    optimizer=tf.keras.optimizers.Adam(0.001),
    loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
    metrics=[tf.keras.metrics.SparseCategoricalAccuracy()],
)

model.fit(ds_train, epochs=6, validation_data=ds_test, )

Run Code Online (Sandbox Code Playgroud)

输出（GPU）：

462/469 [============================>.] - ETA: 0s - loss: 0.3619 - sparse_categorical_accuracy: 0.9003
469/469 [==============================] - 4s 5ms/step - loss: 0.3595 - sparse_categorical_accuracy: 0.9008 - val_loss: 0.1963 - val_sparse_categorical_accuracy: 0.9432
Epoch 2/6
469/469 [==============================] - 2s 5ms/step - loss: 0.1708 - sparse_categorical_accuracy: 0.9514 - val_loss: 0.1392 - val_sparse_categorical_accuracy: 0.9606
Epoch 3/6
469/469 [==============================] - 2s 5ms/step - loss: 0.1224 - sparse_categorical_accuracy: 0.9651 - val_loss: 0.1233 - val_sparse_categorical_accuracy: 0.9650
Epoch 4/6
469/469 [==============================] - 2s 5ms/step - loss: 0.0956 - sparse_categorical_accuracy: 0.9725 - val_loss: 0.0988 - val_sparse_categorical_accuracy: 0.9696
Epoch 5/6
469/469 [==============================] - 2s 5ms/step - loss: 0.0766 - sparse_categorical_accuracy: 0.9780 - val_loss: 0.0875 - val_sparse_categorical_accuracy: 0.9727
Epoch 6/6
469/469 [==============================] - 2s 5ms/step - loss: 0.0633 - sparse_categorical_accuracy: 0.9813 - val_loss: 0.0842 - val_sparse_categorical_accuracy: 0.9745

Run Code Online (Sandbox Code Playgroud)

输出（不带 GPU）

469/469 [==============================] - 2s 1ms/step - loss: 0.3598 - sparse_categorical_accuracy: 0.9013 - val_loss: 0.1970 - val_sparse_categorical_accuracy: 0.9427
Epoch 2/6
469/469 [==============================] - 0s 933us/step - loss: 0.1705 - sparse_categorical_accuracy: 0.9511 - val_loss: 0.1449 - val_sparse_categorical_accuracy: 0.9589
Epoch 3/6
469/469 [==============================] - 0s 936us/step - loss: 0.1232 - sparse_categorical_accuracy: 0.9642 - val_loss: 0.1146 - val_sparse_categorical_accuracy: 0.9655
Epoch 4/6
469/469 [==============================] - 0s 925us/step - loss: 0.0955 - sparse_categorical_accuracy: 0.9725 - val_loss: 0.1007 - val_sparse_categorical_accuracy: 0.9690
Epoch 5/6
469/469 [==============================] - 0s 946us/step - loss: 0.0774 - sparse_categorical_accuracy: 0.9781 - val_loss: 0.0890 - val_sparse_categorical_accuracy: 0.9732
Epoch 6/6
469/469 [==============================] - 0s 971us/step - loss: 0.0647 - sparse_categorical_accuracy: 0.9811 - val_loss: 0.0844 - val_sparse_categorical_accuracy: 0.9752

Run Code Online (Sandbox Code Playgroud)

Answer 1

Bik*_*ram 9

它运行速度较慢的原因可能是因为教程中使用的批量大小较小。但是，请确保您已正确设置所有内容，如下所示。我们将使用 miniforge 而不是 anaconda，因为它没有 GPU 支持。

设置 miniforge 以支持 TensorFlow

下载Miniforge3-MacOSX-arm64.sh
使用以下命令运行该文件：-
- ./Miniforge3-MacOSX-arm64.sh
- （不要像上面那样运行sudo。如果出现权限错误，请先运行chmod +x ./Miniforge3-MacOSX-arm64.sh）
它将在当前目录中下载 miniforge。现在您必须激活它。使用以下命令来执行此操作。
- source miniforge3/bin/activate
您应该会(conda)在命令行中看到。确保它在终端启动期间被激活。使用以下命令。
- conda init
- 或者如果您使用的是zsh，conda init zsh
确保它已正确激活。要检查它，请使用which python. 它应该显示.../miniforge3/bin/python. 如果没有显示，请首先删除miniforge3目录，然后尝试从步骤 2 重新安装。此外，请确保您的anaconda环境已禁用。

现在我们将安装 TensorFlow 及其依赖项。

conda使用以下命令在环境顶部创建一个新环境并激活它。
- conda create -n tensorflow python=<your-python-version
- （用python --version它来找出它）
- conda activate tensorflow
现在使用以下命令安装 TensorFlow 依赖项。
- conda install -c apple tensorflow-deps。
使用以下命令安装 Tensorflow 和 Tensorflow metal for mac。
- pip install tensorflow-macos
- pip install tensorflow-metal

附加套餐

使用以下命令安装 jupyter。
- conda install -c conda-forge jupyterlab

故障排除

'miniforge3/envs/tensorflow/lib/libcblas.3.dylib'（没有这样的文件）或类似的 libcblas 错误。
解决方案：conda install -c conda-forge openblas
/tensorflow/core/framework/tensor.h:880] 检查失败：IsAligned() ptr = 0x101511d60
解决方案：我在某些程序中使用 Tensorflow >2.5.0 时发现此错误。使用 TensorFlow 版本 2.5.0。要重新安装它，请执行以下操作。
- pip uninstall tensorflow-macos
- pip uninstall tensorflow-metal
- conda install -c apple tensorflow-deps==2.5.0 --force-reinstall（可选，仅在出现错误时尝试）
- pip install tensorflow-mac==2.5.0
- pip install tensorflow-metal
导入tensorflow时，jupyter中可能会遇到导入错误。这应该通过安装新内核来解决。
- python -m ipykernel install --user --name tensorflow --display-name "Python <your-python-version> (tensorflow)"
- 重要提示：启动 jupyter 时，请确保选择此内核。另外，tensorflow环境之外的jupyter可以使用该内核导入tensorflow（即您不必每次在jupyter中使用它时都激活tensorflow环境）。

测试（M1 Max，10核CPU，24核GPU版本）

代码：

import tensorflow as tf
import tensorflow_datasets as tfds

DISABLE_GPU = False

if DISABLE_GPU:
    try:
        # Disable all GPUS
        tf.config.set_visible_devices([], 'GPU')
        visible_devices = tf.config.get_visible_devices()
        for device in visible_devices:
            assert device.device_type != 'GPU'
    except:
        # Invalid device or cannot modify virtual devices once initialized.
        pass

print(tf.__version__)

(ds_train, ds_test), ds_info = tfds.load('mnist', split=['train', 'test'], shuffle_files=True, as_supervised=True,
                                         with_info=True)


def normalize_img(image, label):
    return tf.cast(image, tf.float32) / 255., label


ds_train = ds_train.map(normalize_img, num_parallel_calls=tf.data.AUTOTUNE)
ds_train = ds_train.cache()
ds_train = ds_train.shuffle(ds_info.splits['train'].num_examples)
ds_train = ds_train.batch(128)
ds_train = ds_train.prefetch(tf.data.AUTOTUNE)
ds_test = ds_test.map(
    normalize_img, num_parallel_calls=tf.data.AUTOTUNE)
ds_test = ds_test.batch(128)
ds_test = ds_test.cache()
ds_test = ds_test.prefetch(tf.data.AUTOTUNE)

model = tf.keras.models.Sequential([
    tf.keras.layers.Flatten(input_shape=(28, 28)),
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dense(10)
])
model.compile(
    optimizer=tf.keras.optimizers.Adam(0.001),
    loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
    metrics=[tf.keras.metrics.SparseCategoricalAccuracy()],
)

model.fit(ds_train, epochs=6, validation_data=ds_test, )

Run Code Online (Sandbox Code Playgroud)

对于批量大小 = 128

输出（GPU）

462/469 [============================>.] - ETA: 0s - loss: 0.3619 - sparse_categorical_accuracy: 0.9003
469/469 [==============================] - 4s 5ms/step - loss: 0.3595 - sparse_categorical_accuracy: 0.9008 - val_loss: 0.1963 - val_sparse_categorical_accuracy: 0.9432
Epoch 2/6
469/469 [==============================] - 2s 5ms/step - loss: 0.1708 - sparse_categorical_accuracy: 0.9514 - val_loss: 0.1392 - val_sparse_categorical_accuracy: 0.9606
Epoch 3/6
469/469 [==============================] - 2s 5ms/step - loss: 0.1224 - sparse_categorical_accuracy: 0.9651 - val_loss: 0.1233 - val_sparse_categorical_accuracy: 0.9650
Epoch 4/6
469/469 [==============================] - 2s 5ms/step - loss: 0.0956 - sparse_categorical_accuracy: 0.9725 - val_loss: 0.0988 - val_sparse_categorical_accuracy: 0.9696
Epoch 5/6
469/469 [==============================] - 2s 5ms/step - loss: 0.0766 - sparse_categorical_accuracy: 0.9780 - val_loss: 0.0875 - val_sparse_categorical_accuracy: 0.9727
Epoch 6/6
469/469 [==============================] - 2s 5ms/step - loss: 0.0633 - sparse_categorical_accuracy: 0.9813 - val_loss: 0.0842 - val_sparse_categorical_accuracy: 0.9745

Run Code Online (Sandbox Code Playgroud)

输出（不带 GPU）

469/469 [==============================] - 2s 1ms/step - loss: 0.3598 - sparse_categorical_accuracy: 0.9013 - val_loss: 0.1970 - val_sparse_categorical_accuracy: 0.9427
Epoch 2/6
469/469 [==============================] - 0s 933us/step - loss: 0.1705 - sparse_categorical_accuracy: 0.9511 - val_loss: 0.1449 - val_sparse_categorical_accuracy: 0.9589
Epoch 3/6
469/469 [==============================] - 0s 936us/step - loss: 0.1232 - sparse_categorical_accuracy: 0.9642 - val_loss: 0.1146 - val_sparse_categorical_accuracy: 0.9655
Epoch 4/6
469/469 [==============================] - 0s 925us/step - loss: 0.0955 - sparse_categorical_accuracy: 0.9725 - val_loss: 0.1007 - val_sparse_categorical_accuracy: 0.9690
Epoch 5/6
469/469 [==============================] - 0s 946us/step - loss: 0.0774 - sparse_categorical_accuracy: 0.9781 - val_loss: 0.0890 - val_sparse_categorical_accuracy: 0.9732
Epoch 6/6
469/469 [==============================] - 0s 971us/step - loss: 0.0647 - sparse_categorical_accuracy: 0.9811 - val_loss: 0.0844 - val_sparse_categorical_accuracy: 0.9752

Run Code Online (Sandbox Code Playgroud)

此时，我们可以看到在 CPU 中运行比在 GPU 上运行快得多 (x5)，但不要对此感到失望。我们将进行大批量运行。

批量大小 = 1024

输出（GPU）

58/59 [============================>.] - ETA: 0s - loss: 0.4862 - sparse_categorical_accuracy: 0.8680
59/59 [==============================] - 2s 11ms/step - loss: 0.4839 - sparse_categorical_accuracy: 0.8686 - val_loss: 0.2269 - val_sparse_categorical_accuracy: 0.9362
Epoch 2/6
59/59 [==============================] - 0s 8ms/step - loss: 0.1964 - sparse_categorical_accuracy: 0.9442 - val_loss: 0.1610 - val_sparse_categorical_accuracy: 0.9543
Epoch 3/6
59/59 [==============================] - 1s 9ms/step - loss: 0.1408 - sparse_categorical_accuracy: 0.9605 - val_loss: 0.1292 - val_sparse_categorical_accuracy: 0.9624
Epoch 4/6
59/59 [==============================] - 1s 9ms/step - loss: 0.1067 - sparse_categorical_accuracy: 0.9707 - val_loss: 0.1055 - val_sparse_categorical_accuracy: 0.9687
Epoch 5/6
59/59 [==============================] - 1s 9ms/step - loss: 0.0845 - sparse_categorical_accuracy: 0.9767 - val_loss: 0.0912 - val_sparse_categorical_accuracy: 0.9723
Epoch 6/6
59/59 [==============================] - 1s 9ms/step - loss: 0.0683 - sparse_categorical_accuracy: 0.9814 - val_loss: 0.0827 - val_sparse_categorical_accuracy: 0.9747

Run Code Online (Sandbox Code Playgroud)

输出（不带 GPU）

59/59 [==============================] - 2s 15ms/step - loss: 0.4640 - sparse_categorical_accuracy: 0.8739 - val_loss: 0.2280 - val_sparse_categorical_accuracy: 0.9338
Epoch 2/6
59/59 [==============================] - 1s 12ms/step - loss: 0.1962 - sparse_categorical_accuracy: 0.9450 - val_loss: 0.1626 - val_sparse_categorical_accuracy: 0.9537
Epoch 3/6
59/59 [==============================] - 1s 12ms/step - loss: 0.1411 - sparse_categorical_accuracy: 0.9602 - val_loss: 0.1304 - val_sparse_categorical_accuracy: 0.9613
Epoch 4/6
59/59 [==============================] - 1s 12ms/step - loss: 0.1091 - sparse_categorical_accuracy: 0.9700 - val_loss: 0.1020 - val_sparse_categorical_accuracy: 0.9698
Epoch 5/6
59/59 [==============================] - 1s 12ms/step - loss: 0.0864 - sparse_categorical_accuracy: 0.9764 - val_loss: 0.0912 - val_sparse_categorical_accuracy: 0.9716
Epoch 6/6
59/59 [==============================] - 1s 12ms/step - loss: 0.0697 - sparse_categorical_accuracy: 0.9812 - val_loss: 0.0834 - val_sparse_categorical_accuracy: 0.9749

Run Code Online (Sandbox Code Playgroud)

正如您现在所看到的，在 GPU 上运行比在 CPU 上运行速度更快 (x1.3)。增加batch size可以显着提高GPU的性能。

归档时间：	4 年，1 月前
查看次数：	4498 次
最近记录：	3 年，8 月前

无论如何，要在配备 Apple Silicon（M1、M1 Pro、M1 Max）GPU 的 Mac 中使用 Tensorflow 吗？

我尝试过的代码

输出（GPU）：

输出（不带 GPU）

设置 miniforge 以支持 TensorFlow

现在我们将安装 TensorFlow 及其依赖项。

附加套餐

故障排除

测试（M1 Max，10核CPU，24核GPU版本）

代码：

对于批量大小 = 128

输出（GPU）

输出（不带 GPU）

批量大小 = 1024

输出（GPU）

输出（不带 GPU）

图：不同批量大小的运行时图。

资料来源：