为什么使用 OpenCL 的 ImageMagick 比 OpenMP 慢?

Ben*_*rel 4 imagemagick

我一直在尝试将 ImageMagick 与 OpenCL 结合使用来加速批量调整图像大小。

为此,我在 Amazon EC2 上启动了一个GPU 实例(g2.2xlarge),根据 AWS 的说法,该实例具有以下功能:

高性能 NVIDIA GPU,每个 GPU 具有 1,536 个 CUDA 核心和 4GB 显存

对 GPU 实例使用了特定的 AMI,即带有NVIDIA 提供的NVIDIA GRID GPU 驱动程序的 Amazon Linux AMI 。


使用 OpenMP

在从源代码编译 ImageMagick 之前,作为比较的基础,我尝试了仅支持 OpenMP 的内置 ImageMagick:

$ convert --version
Version: ImageMagick 6.7.8-9 2015-10-08 Q16 http://www.imagemagick.org
Copyright: Copyright (C) 1999-2012 ImageMagick Studio LLC
Features: OpenMP
Run Code Online (Sandbox Code Playgroud)

我将50 Mpx JPEG 图像的大小调整为其大小的 25%,并计时:

$ time convert -resize 1158x1737 01.jpg 01b.jpg

real    0m1.371s
user    0m5.388s
sys     0m0.204s
Run Code Online (Sandbox Code Playgroud)

我已经运行了几次以确保时间一致(特别是因为 ImageMagick 在首次使用时执行设备性能基准测试)。


使用 OpenCL

然后我下载了ImageMagick 源代码,并编译了它们:

$ export C_INCLUDE_PATH=/opt/nvidia/cuda/include
$ ./configure --enable-opencl
$ make
Run Code Online (Sandbox Code Playgroud)

我前往已编译的二进制文件,并检查 OpenCL 现已启用:

$ ./convert --version
Version: ImageMagick 6.9.2-5 Q16 x86_64 2015-11-08 http://www.imagemagick.org
Copyright: Copyright (C) 1999-2015 ImageMagick Studio LLC
License: http://www.imagemagick.org/script/license.php
Features: Cipher DPC OpenCL OpenMP
Run Code Online (Sandbox Code Playgroud)

然后运行基准测试:

$ time ./convert -resize 1158x1737 01.jpg 01b.jpg

real    0m2.655s
user    0m1.720s
sys     0m0.928s
Run Code Online (Sandbox Code Playgroud)

我再次运行了几次以确保时间一致。

令我惊讶的是,这速度是仅使用 OpenMP 的版本的一半。


试图理解它

正如StackOverflow 答案中所建议的,我检查了 ImageMagick 设备基准文件:

$ cat ~/.cache/ImageMagick/ImagemagickOpenCLDeviceProfile
<version>ImageMagick Device Selection v0.9</version>
<device><type></type><name>GRID K520</name><driver>340.32</driver><max cu>8</max cu><max clock>797</max clock><score>0.2780</score></device>
<device><type></type><score>1.4140</score></device>
Run Code Online (Sandbox Code Playgroud)

注意:此文件仅在我运行 ImageMagick 的编译版本时创建;由于某种原因,当我运行 Amazon Linux 附带的版本时,它没有创建。

据我了解,ImageMagick 可以使用两种设备:

  • GPU,被认定为NVIDIA GRID K520得分为0.278
  • 未知设备(CPU?),得分为 1.414

据我了解,这里CPU的性能优于GPU

好吧,CPU 还不错(E5-2670 @ 2.60GHz),但 GPU 在它的领域里是个野兽。


我的问题

  • 编译后的 ImageMagick 版本如何能够比 Amazon Linux 附带的版本快一半?
  • 在 ImageMagick 基准测试中,CPU 如何胜过 GPU?

欢迎任何提示来恢复预期的 GPU 性能。

小智 5

  • 编译后的 ImageMagick 版本如何能够比 Amazon Linux 附带的版本快一半?

当使用 OpenCL 时,这不是不同的初始化,而是额外的初始化;总是需要更长的时间。当然,我们已经预编译了内核,但只是加载库、创建命令队列、加载内核……这一切都需要时间。不幸的是,“OpenCL 模式”不太适合这种一次性命令行使用。可以初始化 ImageMagick 库一次并对库进行多次调用的应用程序或持久服务器会做得很好。

  • 在 ImageMagick 基准测试中,CPU 如何胜过 GPU?

您阅读的信息是错误的。分数越低意味着设备速度越快。GPU 速度快了近 6 倍。在这种情况下,术语分数可能会令人困惑,因此我们可能希望在 ImageMagick 的未来版本中对其进行重命名。