cython中的cython共享内存.parallel.prange - block

Question

cython中的cython共享内存.parallel.prange - block

Jue*_*gen 11 python malloc parallel-processing cython python-multithreading

我有一个函数foo,它将一个指向内存的指针作为参数,并且对该内存进行写入和读取:

cdef void foo (double *data):
   data[some_index_int] = some_value_double
   do_something_dependent_on (data)

Run Code Online (Sandbox Code Playgroud)

我data这样分配:

cdef int N = some_int
cdef double *data = <double*> malloc (N * sizeof (double))

cdef int i
for i in cython.parallel.prange (N, nogil=True):
    foo (data)

readout (data)

Run Code Online (Sandbox Code Playgroud)

我现在的问题是:不同的线程如何对待这个？我的猜测是指向的内存data将由所有线程共享,并在函数内部"同时"读取或写入foo.这会弄乱所有结果,因为人们不能依赖先前设定的数据值(内部foo)？我的猜测是正确的还是在cython编译器中实现了一些神奇的安全带？

非常感谢你提前.

Answer 1

Sau*_*tro 8

一个好方法是让主阵列位于线程之外.然后你给每个线程指向应该由线程计算的主数组部分的指针.

以下示例是矩阵乘法的实现(类似于dot2-D数组),其中:

c = a*b

Run Code Online (Sandbox Code Playgroud)

这里的并行性是通过行来实现的a.检查指针如何传递给multiply函数,以允许不同的线程共享相同的数组.

import numpy as np
cimport numpy as np
import cython
from cython.parallel import prange

ctypedef np.double_t cDOUBLE
DOUBLE = np.float64


def mydot(np.ndarray[cDOUBLE, ndim=2] a, np.ndarray[cDOUBLE, ndim=2] b):
    cdef np.ndarray[cDOUBLE, ndim=2] c
    cdef int i, M, N, K

    c = np.zeros((a.shape[0], b.shape[1]), dtype=DOUBLE)
    M = a.shape[0]
    N = a.shape[1]
    K = b.shape[1]

    for i in prange(M, nogil=True):
        multiply(&a[i,0], &b[0,0], &c[i,0], N, K)

    return c


@cython.wraparound(False)
@cython.boundscheck(False)
@cython.nonecheck(False)
cdef void multiply(double *a, double *b, double *c, int N, int K) nogil:
    cdef int j, k
    for j in range(N):
        for k in range(K):
            c[k] += a[j]*b[k+j*K]

Run Code Online (Sandbox Code Playgroud)

要检查您是否可以使用此脚本:

import time

import numpy as np

import _stack

a = np.random.random((10000,500))
b = np.random.random((500,2000))

t = time.clock()
c = np.dot(a, b)
print('finished dot: {} s'.format(time.clock()-t))

t = time.clock()
c2 = _stack.mydot(a, b)
print('finished mydot: {} s'.format(time.clock()-t))

print 'Passed test:', np.allclose(c, c2)

Run Code Online (Sandbox Code Playgroud)

它在我的电脑上给出了:

finished dot: 0.601547366526 s
finished mydot: 2.834147917 s
Passed test: True

Run Code Online (Sandbox Code Playgroud)

如果行数a小于当时的cols数或者col中b的cols数mydot会更差,则需要更好地检查哪个维度以实现并行性.

Answer 2

Jam*_*lls 2

我假设如果没有读或写同步锁，data线程将读/写内存位置并覆盖彼此的更改。如果没有某种同步，您将无法获得一致的结果。

尽管文档（http://docs.cython.org/src/userguide/parallelism.html）似乎建议OpenMP（默认后端）自动创建线程局部变量。

归档时间：	12 年，8 月前
查看次数：	3091 次
最近记录：	11 年，7 月前