Pycuda搞乱numpy矩阵转置

Question

Pycuda搞乱numpy矩阵转置

当转换为pycuda.gpuarray？时,为什么转置矩阵看起来不同？

你能复制一下吗？什么可能导致这个？我使用了错误的方法吗？

示例代码

from pycuda import gpuarray
import pycuda.autoinit
import numpy

data = numpy.random.randn(2,4).astype(numpy.float32)
data_gpu = gpuarray.to_gpu(data.T)
print "data\n",data
print "data_gpu.get()\n",data_gpu.get()
print "data.T\n",data.T

Run Code Online (Sandbox Code Playgroud)

产量

data
[[ 0.70442784  0.08845157 -0.84840715 -1.81618035]
 [ 0.55292499  0.54911566  0.54672164  0.05098847]]
data_gpu.get()
[[ 0.70442784  0.08845157]
 [-0.84840715 -1.81618035]
 [ 0.55292499  0.54911566]
 [ 0.54672164  0.05098847]]
data.T
[[ 0.70442784  0.55292499]
 [ 0.08845157  0.54911566]
 [-0.84840715  0.54672164]
 [-1.81618035  0.05098847]]

Run Code Online (Sandbox Code Playgroud)

Answer 1

tal*_*ies 6

基本原因是numpy转置只创建一个视图,它对底层数组存储没有影响,而且是当对设备内存执行复制时PyCUDA直接访问的存储.解决方案是copy在执行转置时使用该方法,这将在主机内存中以转置顺序创建一个包含数据的数组,然后将其复制到设备:

data_gpu = gpuarray.to_gpu(data.T.copy())

Run Code Online (Sandbox Code Playgroud)

Answer 2

NPE*_*NPE 5

在numpy中,data.T对底层1D数组没有任何作用.它只是操纵步幅来获得转置.这使它成为恒定时间和恒定存储器操作.

它似乎pycuda.to_gpu()不尊重步幅,只是复制底层的1D阵列.这将产生您正在观察的确切行为.

在我看来,你的代码没有任何问题.相反,我会认为这是一个错误pycuda.

我已经google了,并找到了一个详细讨论这个问题的线程.

作为一种解决方法,您可以尝试传递numpy.ascontiguousarray(data.T)给gpuarray.to_gpu().当然,这将在主机RAM中创建第二个数据副本.

归档时间：	14 年，3 月前
查看次数：	749 次
最近记录：	14 年，3 月前