如何正确使用anaconda加速GPU

Question

如何正确使用anaconda加速GPU

bud*_*itr 5 numpy anaconda python-3.4 numba-pro

我试图用anaconda加速快速计算矩阵.我从非常基本的例子开始:乘以2个矩阵.

我的目标是以某种方式获得GPU倍增,这比通常的numpy.dot更好

这是我的基本示例,基于此文档.

from numbapro import guvectorize
from numpy import arange

@guvectorize(['void(float32[:,:], float32[:,:], float32[:,:])'], '(m,n),(n,p)->(m,p)', target='gpu')
def matmul(A, B, C):
    m, n = A.shape
    n, p = B.shape
    for i in range(m):
        for j in range(p):
            C[i, j] = 0
            for k in range(n):
                C[i, j] += A[i, k] * B[k, j]

import numpy as np
import time

for dim in [50, 100, 200]:
    rnd = np.random.RandomState(0)
    a = rnd.rand(dim, dim).astype(np.float32)
    b = rnd.rand(dim, dim).astype(np.float32)
    resgpu = np.zeros_like(a)

    start = time.time()
    rescpu = np.dot(a, b)
    print('CPU:', time.time() - start)

    start = time.time()
    resgpu = matmul(a, b)
    print('GPU:', time.time() - start)

    print(np.allclose(rescpu, resgpu))
    print(np.allclose(resgpu, rescpu))

Run Code Online (Sandbox Code Playgroud)

结果太糟糕了:GPU比CPU慢得多

CPU: 0.00011801719665527344
GPU: 0.05677294731140137
True
True
CPU: 0.00011205673217773438
GPU: 0.3881375789642334
True
True
CPU: 0.00038933753967285156
GPU: 3.018171787261963
True
True

Run Code Online (Sandbox Code Playgroud)

当然我理解内部的numpy实现已经很好地优化了,但我希望anaconda官方的例子是好的.我使用python 3.4.3并使用这两个帮助库有错误:http://www.cs.toronto.edu/~tijmen/gnumpy.html和https://github.com/rctn/gpupy

我应该说用gpupy我在python 2.7上成功加速了.

所以我的问题是:如何通过GPU使用矩阵乘法比numpy-CPU更好？anaconda官方示例有什么问题,如果有一个python3工作库允许以numpy方式使用GPU？

===

结果

不幸的是,python 3没有简单而好的方法,而是使用2.7

感谢@rth为recommendedint awesome library scikits.cuda

可用功能

一些基准测试(使用anaconda mkl测试,所以numpy也很快)

dim = 10000
rnd = np.random.RandomState(0)
a = rnd.rand(dim, dim).astype(np.float32)
b = rnd.rand(dim, dim).astype(np.float32)
a_gpu = gpuarray.to_gpu(a)
b_gpu = gpuarray.to_gpu(b)

start = time.time()
rescpu = np.dot(a, b)
print 'CPU:', time.time() - start

start = time.time()
resgpu = culinalg.dot(a_gpu, b_gpu)
print 'GPU:', time.time() - start

resgpu = resgpu.get()
print np.allclose(rescpu, resgpu)
print np.allclose(resgpu, rescpu)

Run Code Online (Sandbox Code Playgroud)

结果

CPU: 16.4765479565
GPU: 0.000520944595337

Run Code Online (Sandbox Code Playgroud)

Answer 1

rth*_*rth 3

您应该看看 BLAS 实现，它为经典线性代数运算提供高度优化的例程。稠密矩阵的乘法是用该gemm函数执行的。

例如，numpy如果针对优化的 BLAS 实现（OpenBLAS、ATLAS、MKL 等）进行编译，则矩阵乘法将得到显着改进。
对于 GPU，NVIDIA 提供了 cuBLAS 实现。根据这个答案，可以使用 module.numpy 数组来调用它scikits.cuda。您正在使用的Anaconda 加速器还提供与 cuBLAS 的直接绑定。

顺便说一句，如果您想对矩阵乘法的 CPU 与 GPU 性能进行基准测试，您还应该指定 Numpy 用于 CPU 计算的 BLAS，因为结果可能存在一个数量级的差异（请参阅此基准测试）。

归档时间：	10 年，4 月前
查看次数：	10799 次
最近记录：	10 年，4 月前