Python 简单循环并行化 Jupyter Notebook

Question

Python 简单循环并行化 Jupyter Notebook

Luí*_*sta 4 python parallel-processing multiprocessing jupyter-notebook

我正在尝试使用 Jupyter Notebook 并行化一个简单的 python 循环。我尝试使用，Pool但它永远挂起，我必须杀死笔记本才能阻止它。

def process_frame(f):
    new_dict = dict()
    pc_dict = calculate_area(fl)
    for key in pc_dict:
        if key not in new_dict:
            new_dict[key] = 0
        new_dict[key] = float(sum(pc_dict[key]))
    full_pc_dict[fl] = new_dict

Run Code Online (Sandbox Code Playgroud)

frames_list = [0, 1, 2, 3, 4, 5, 6]

我想process_frame为frames_list.

请注意，最终结果应该是一个包含来自process_frame. 我不知道将它附加在函数的末尾是否是个好主意。

关于如何使用 Jupyter Notebook 执行此操作的任何建议？另外，是否可以tqdm使用这种并行处理？

亲切的问候

Answer 1

Kar*_*Żak 8

[更新]
如果你想在 jupyter notebooks 中使用multiprocessing，你想使用multiprocess 包而不是内置的multiprocessing（jupyter notebooks 与 multiprocessing 的主要功能有一个已知问题）

.py使用您的魔术功能创建一个单独的文件。如果您想在笔记本中执行此操作 - 在单独的代码单元中使用类似的内容：

%%writefile magic_functions.py

def magic_function(f):
    return f+10

def process_frame(f):
    # changed your logic here as I couldn't repro it
    return f, magic_function(f)

Run Code Online (Sandbox Code Playgroud)

OUT：编写magic_functions.py

然后并行运行您的代码：

from tqdm import tqdm

from multiprocess import Pool
from magic_functions import process_frame

frames_list = [0, 1, 2, 3, 4, 5, 6]

max_pool = 5

with Pool(max_pool) as p:
    pool_outputs = list(
        tqdm(
            p.imap(process_frame,
                   frames_list),
            total=len(frames_list)
        )
    )    

print(pool_outputs)
new_dict = dict(pool_outputs)

print("dict:", new_dict)

Run Code Online (Sandbox Code Playgroud)

出去：

100%|????????????????????????????????????????????????????????????????????????????????????| 7/7 [00:00<00:00, 37.63it/s]

[(0, 10), (1, 11), (2, 12), (3, 13), (4, 14), (5, 15), (6, 16)]
dict: {0: 10, 1: 11, 2: 12, 3: 13, 4: 14, 5: 15, 6: 16}

Run Code Online (Sandbox Code Playgroud)

归档时间：	6 年前
查看次数：	4999 次
最近记录：	6 年前