在我熟悉Python(Numba lib)中的CUDA时,我实现了矩阵提供方法:
numpy.dot()numpy.dot()所以我测试了两种类型的数据:
numpy.random.randint(0, 5, (N, N)) # with int32 elementsnumpy.random.random((N, N)) # with float64 elements对于int32我获得了预期的结果,我的GPU algroithms比numpy的CPU表现更好:

但是,在float64类型上,numpy.dot()表现优于我的所有GPU方法:

所以,问题是:
为什么数组numpy.dot()如此之快float64,并且numpy使用GPU?