为什么NumPy阵列如此之快?

Ana*_*ake 53 python arrays numpy

我刚刚改变了一个我正在编写的程序,将我的数据保存为numpy数组,因为我遇到了性能问题,而且差别很大.它最初运行需要30分钟,现在需要2.5秒!

我想知道它是如何做到的.我认为是因为它消除了对for循环的需要但超出了我的难度.

Fre*_*Foo 81

Numpy数组是密集的同类型数组.相比之下,Python列表是指向对象的指针数组,即使它们都属于同一类型.因此,您可以获得参考地点的好处.

此外,许多Numpy操作在C中实现,避免了Python中的循环,指针间接和每元素动态类型检查的一般成本.速度提升取决于您正在执行的操作,但在数字运算程序中,几个数量级并不罕见.

  • @Rohan记住甚至原始类型都是对象.因此,当您将该变量添加到列表中时,您实际上只是将特定变量指向的对象添加到列表中.在这种情况下,该对象是一个数字.因此,当您更改变量时,或者更确切地说,将名称重新绑定到新整数时,您不会更改原始对象的属性,即原始数字.因此,期望阵列中的"对应"数字不会改变其值. (7认同)
  • 如何为这些 C 编写的操作提供 Python 前端?这种技术叫什么名字? (4认同)

rif*_*aff 15

numpy数组是专门的数据结构.这意味着您不仅可以获得高效的内存中表示的好处,还可以获得高效的专用实现.

例如,如果要总结两个数组,则将使用专门的CPU向量操作执行添加,而不是在循环中调用int addition的python实现.

  • 这些(专业操作和动态优化)是正确的答案.在解决主要性能因素(解释器开销)之后,诸如预取和参考局部性之类的微小因素才变得显着. (2认同)
  • 引用的位置很重要有两个原因:由于局部性本身(及其对缓存的影响),并且因为缺少间接意味着可以跳过处理间接的指令. (2认同)

Vin*_*ish 6

考虑以下代码:

import numpy as np
import time

a = np.random.rand(1000000)
b = np.random.rand(1000000)

tic = time.time()
c = np.dot(a, b)
toc = time.time()

print("Vectorised version: " + str(1000*(toc-tic)) + "ms")

c = 0
tic = time.time()
for i in range(1000000):
    c += a[i] * b[i]
toc = time.time()

print("For loop: " + str(1000*(toc-tic)) + "ms")
Run Code Online (Sandbox Code Playgroud)

输出:

Vectorised version: 2.011537551879883ms
For loop: 539.8685932159424ms
Run Code Online (Sandbox Code Playgroud)

这里 Numpy 快得多,因为它利用了并行性(这是单指令多数据 (SIMD) 的情况),而传统的 for 循环无法利用它。

  • 并行性似乎不太可能是 250 倍改进的主要原因。没有 250 个 CPU 线程可供并行化。 (3认同)
  • 不,numpy 不使用低级并行性(尽管特定的 BLAS 库可能将其用于“点”。)主要的速度差异是由于编译循环与解释循环造成的。 (3认同)