CPU(numpy)和GPU(gnumpy)上的矩阵乘法给出不同的结果

Question

CPU(numpy)和GPU(gnumpy)上的矩阵乘法给出不同的结果

Ott*_*kar 13 python precision cuda numpy

我正在使用gnumpy来加速在GPU上训练神经网络的一些计算.我得到了理想的加速,但有点担心numpy(cpu)和gnumpy(gpu)的结果差异.

我有以下测试脚本来说明问题:

import gnumpy as gpu
import numpy as np

n = 400

a = np.random.uniform(low=0., high=1., size=(n, n)).astype(np.float32)
b = np.random.uniform(low=0., high=1., size=(n, n)).astype(np.float32)

ga = gpu.garray(a)
gb = gpu.garray(b)

ga = ga.dot(gb)
a  = a.dot(b)

print ga.as_numpy_array(dtype=np.float32) - a

Run Code Online (Sandbox Code Playgroud)

它提供输出:

[[  1.52587891e-05  -2.28881836e-05   2.28881836e-05 ...,  -1.52587891e-05
    3.81469727e-05   1.52587891e-05]
 [ -5.34057617e-05  -1.52587891e-05   0.00000000e+00 ...,   1.52587891e-05
    0.00000000e+00   1.52587891e-05]
 [ -1.52587891e-05  -2.28881836e-05   5.34057617e-05 ...,   2.28881836e-05
    0.00000000e+00  -7.62939453e-06]
 ..., 
 [  0.00000000e+00   1.52587891e-05   3.81469727e-05 ...,   3.05175781e-05
    0.00000000e+00  -2.28881836e-05]
 [  7.62939453e-06  -7.62939453e-06  -2.28881836e-05 ...,   1.52587891e-05
    7.62939453e-06   1.52587891e-05]
 [  1.52587891e-05   7.62939453e-06   2.28881836e-05 ...,  -1.52587891e-05
    7.62939453e-06   3.05175781e-05]]

Run Code Online (Sandbox Code Playgroud)

如您所见,差异大约为10 ^ -5.

所以问题是:我应该担心这些差异还是这是预期的行为？

附加信息:

GPU:GeForce GTX 770;
numpy版本:1.6.1

当我使用梯度检查(使用有限差分近似)来验证我从numpy切换到gnumpy所做的小修改没有破坏任何东西时,我注意到了这个问题.正如人们可能期望的那样,梯度检查不能以32位精度工作(gnumpy不支持float64),但令我惊讶的是,当使用相同的精度时,CPU和GPU之间的误差不同.

下面给出了小型测试神经网络上CPU和GPU的错误: 梯度检查错误

由于误差幅度相似,我猜这些差异还可以吗？

在阅读BenC评论中引用的文章之后,我非常确定这些差异可以通过使用融合乘法 - 加法(FMA)指令的其中一个设备来解释,而另一个则不是.

我从论文中实现了这个例子:

import gnumpy as gpu
import numpy as np

a=np.array([1.907607,-.7862027, 1.147311, .9604002], dtype=np.float32)
b=np.array([-.9355000, -.6915108, 1.724470, -.7097529], dtype=np.float32)

ga = gpu.garray(a)
gb = gpu.garray(b)

ga = ga.dot(gb)
a  = a.dot(b)

print "CPU", a
print "GPU", ga
print "DIFF", ga - a

>>>CPU 0.0559577
>>>GPU 0.0559577569366
>>>DIFF 8.19563865662e-08

Run Code Online (Sandbox Code Playgroud)

...而且差异类似于FMA与串行算法(尽管由于某种原因,两种结果都与确切的结果不同于本文).

我正在使用的GPU(GeForce GTX 770)支持FMA指令,而CPU则不支持(我有一个Ivy Bridge英特尔®至强®(英文版)CPU E3-1225 V2,但英特尔在其Haswell产品中引入了FMA3指令).

其他可能的解释包括背景中使用的不同数学库或由例如CPU与GPU上的不同并行化级别引起的操作序列的差异.

Answer 1

ali*_*i_m 12

我建议np.allclose用于测试两个浮点数是否几乎相等.

虽然您只关注两个结果数组中值的绝对差异,但np.allclose也要考虑它们的相对差异.例如,假设您的输入数组中的值大1000倍 - 那么两个结果之间的绝对差异也将大1000倍,但这并不意味着两个点产品的精确度更低.

np.allcloseTrue只有在两个测试数组中每对应元素对满足以下条件时才会返回,a并且b:

abs(a - b) <= (atol + rtol * abs(b))

Run Code Online (Sandbox Code Playgroud)

默认情况下,rtol=1e-5和atol=1e-8.这些公差是一个很好的"经验法则",但是在它们的情况下它们是否足够小将取决于您的特定应用.例如,如果您处理的值<1e-8,则1e-8的绝对差异将是一场灾难!

如果您尝试np.allclose使用默认容差调用两个结果,您将找到np.allclose返回值True.我的猜测是,这些差异可能足够小,以至于他们不值得担心.这实际上取决于你对结果做了什么.

归档时间：	12 年，1 月前
查看次数：	12723 次
最近记录：	6 年，10 月前