如何使用mpi4py并行化这个python脚本？

Question

如何使用mpi4py并行化这个python脚本？

mat*_*tos 5 python parallel-processing mpi4py

如果已经有人问过这个问题，我深表歉意，但我已经阅读了大量文档，但仍然不确定如何做我想做的事情。

我想同时在多个内核上运行 Python 脚本。

我在一个目录中有 1800 个 .h5 文件，名称为“snapshots_s1.h5”、“snapshots_s2.h5”等，每个文件的大小约为 30MB。这个 Python 脚本：

从目录中一次一个地读入 h5py 文件。
提取和操作 h5py 文件中的数据。
创建提取数据的绘图。

完成后，脚本然后从目录中读取下一个 h5py 文件并遵循相同的过程。因此，在进行这项工作时，没有一个处理器需要与任何其他处理器通信。

脚本如下：

import h5py
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.colors as colors
import cmocean
import os  

from mpi4py import MPI

de.logging_setup.rootlogger.setLevel('ERROR')

# Plot writes

count = 1
for filename in os.listdir('directory'):  ### [PERF] Applied to ~ 1800 .h5 files
    with h5py.File('directory/{}'.format(filename),'r') as file:

         ### Manipulate 'filename' data.  ### [PERF] Each fileI ~ 0.03 TB in size
         ...

         ### Plot 'filename' data.        ### [PERF] Some fileO is output here
         ...
count = count + 1

Run Code Online (Sandbox Code Playgroud)

理想情况下，我想使用 mpi4py 来执行此操作（出于各种原因），尽管我对其他选项持开放态度，例如 multiprocessing.Pool （我实际上无法开始工作。我尝试遵循此处概述的方法）。

所以，我的问题是：我需要在脚本中放入哪些命令才能使用 mpi4py 并行化它？或者，如果此选项不可能，我还能如何并行化脚本？

Answer 1

Jav*_*ier 1

多重处理不应比这更复杂：

def process_one_file(fn):
    with h5py.File(fn, 'r') as f:
        ....
    return is_successful


fns = [os.path.join('directory', fn) for fn in os.listdir('directory')]
pool = multiprocessing.Pool()
for fn, is_successful in zip(fns, pool.imap(process_one_file, fns)):
    print(fn, "succedded?", is_successful)

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，4 月前
查看次数：	1011 次
最近记录：	8 年，4 月前