在 Python 3 中并行化“for”循环

Question

在 Python 3 中并行化“for”循环

Nir*_*ala 11 python multiprocessing python-multithreading python-3.x python-multiprocessing

我正在尝试对 MODIS 卫星数据进行一些分析。我的代码主要读取尺寸为 1200 x 1200 (806*1200*1200) 的大量文件 (806)。它使用 afor loop并执行数学运算。

以下是我读取文件的一般方式。

mindex=np.zeros((1200,1200))
for i in range(1200):
    var1 = xray.open_dataset('filename.nc')['variable'][:,i,:].data
    for j in range(1200):
        var2 = var1[:,j]
        ## Mathematical Calculations to find var3[i,j]## 
        mindex[i,j] = var3[i,j]

Run Code Online (Sandbox Code Playgroud)

由于要处理大量数据，该过程非常缓慢，我正在考虑对其进行并行化。我尝试用做一些事情joblib，但我一直无法做到。

我不确定如何解决这个问题。

Answer 1

Mat*_*ieu 11

我的猜测是您想同时处理多个文件。为此，最好的方法（在我看来）是使用multiprocessing. 要使用它，您需要定义一个基本步骤，它已经在您的代码中完成。

import numpy as np
import multiprocessing as mp
import os

def f(file):
    mindex=np.zeros((1200,1200))
    for i in range(1200):
        var1 = xray.open_dataset(file)['variable'][:,i,:].data
        for j in range(1200):
            var2 = var1[:,j]
            ## Mathematical Calculations to find var3[i,j]## 
            mindex[i,j] = var3[i,j]
    return (file, mindex)


if __name__ == '__main__':
    N= mp.cpu_count()

    files = os.scandir(folder)

    with mp.Pool(processes = N) as p:
        results = p.map(f, [file.name for file in files])

Run Code Online (Sandbox Code Playgroud)

这应该返回一个元素列表，results其中每个元素都是一个带有文件名和 mindex 矩阵的元组。有了这个，您可以同时处理多个文件。如果每个文件的计算时间很长，则特别有效。

归档时间：	7 年，6 月前
查看次数：	13968 次
最近记录：	6 年，4 月前