相关疑难解决方法(0)

是否将共享只读数据复制到不同进程以进行多处理？

我看到的那段代码看起来像这样:

glbl_array = # a 3 Gb array

def my_func( args, def_param = glbl_array):
    #do stuff on args and def_param

if __name__ == '__main__':
  pool = Pool(processes=4)
  pool.map(my_func, range(1000))

Run Code Online (Sandbox Code Playgroud)

有没有办法确保(或鼓励)不同的进程没有获得glbl_array的副本但共享它.如果没有办法停止复制,我将使用memmapped数组,但我的访问模式不是很规律,所以我希望memmapped数组更慢.以上似乎是第一个尝试的事情.这是在Linux上.我只是想从Stackoverflow获得一些建议,并且不想惹恼系统管理员.你认为它会帮助,如果第二个参数是像一个真正的不可变对象glbl_array.tostring().

python numpy multiprocessing

san*_*san

2017 08-11

52
推荐指数

3
解决办法

4万
查看次数

什么是Python名称空间

我刚刚开始学习Python并且在Python中遇到了"命名空间"概念.虽然我得到了它的概念,但我无法理解这个概念的严重性.

网上的一些浏览显示,针对PHP的一个原因是它没有对命名空间的本机支持.

有人可以解释如何使用命名空间以及此功能如何使编程更好(不仅仅是在Python中,因为我假设命名空间不是限于特定语言的概念).

我主要来自Java和C编程背景.

python programming-languages namespaces

Sri*_*aju

2015 05-05

43
推荐指数

2
解决办法

3万
查看次数

python中的多处理 - 在多个进程之间共享大对象(例如pandas dataframe)

我更精确地使用Python多处理

from multiprocessing import Pool
p = Pool(15)

args = [(df, config1), (df, config2), ...] #list of args - df is the same object in each tuple
res = p.map_async(func, args) #func is some arbitrary function
p.close()
p.join()

Run Code Online (Sandbox Code Playgroud)

这种方法具有巨大的内存消耗; 几乎占用了我所有的RAM(此时它变得非常慢,因此使多处理非常无用).我假设问题是这df是一个巨大的对象(一个大型的pandas数据帧),它会被复制到每个进程.我试过使用multiprocessing.Value共享数据帧而不复制

shared_df = multiprocessing.Value(pandas.DataFrame, df)
args = [(shared_df, config1), (shared_df, config2), ...]

Run Code Online (Sandbox Code Playgroud)

(正如Python多处理共享内存中所建议的那样),但是这给了我TypeError: this type has no size(与在Python进程之间共享一个复杂对象相同？,遗憾的是我不理解答案).

我第一次使用多处理,也许我的理解还不够好.是multiprocessing.Value实际上即使在这种情况下使用了正确的事情？我已经看到了其他建议(例如队列),但现在有点困惑.有什么选择可以共享内存,在这种情况下哪一个最好？

python multiprocessing pandas

Ann*_*nne

2017 05-23

36
推荐指数

4
解决办法

2万
查看次数

标签统计

python ×3

multiprocessing ×2

namespaces ×1

numpy ×1

pandas ×1

programming-languages ×1

是否将共享只读数据复制到不同进程以进行多处理？

什么是Python名称空间

python中的多处理 - 在多个进程之间共享大对象(例如pandas dataframe)

标签 统计

标签统计