Python 并行计算 - Scoop

Nic*_*icg 5 python parallel-processing machine-learning linear-regression python-scoop

我试图熟悉 Scoop 库（此处的文档： https: //media.readthedocs.org/pdf/scoop/0.7/scoop.pdf）以学习如何并行执行统计计算，特别是使用 future。地图功能。

因此，首先，我想尝试运行一个简单的线性回归，并使用从正态分布随机生成的 10000000 个数据点（4 个特征，1 个目标变量）来评估串行计算和并行计算之间的性能差异。

这是我的代码：

import pandas as pd
import numpy as np
import random
from scoop import futures
import statsmodels.api as sm
from time import time

def linreg(vals):
    global model
    model = sm.OLS(y_vals,X_vals).fit()
    return model
    print(model.summary())    

if __name__ == '__main__':

    random.seed(42)
    vals = pd.DataFrame(np.random.normal(loc = 3, scale = 100, size =(10000000,5)))
    vals.columns = ['dep', 'ind1', 'ind2', 'ind3', 'ind4']
    y_vals = vals['dep']
    X_vals = vals[['ind1', 'ind2', 'ind3', 'ind4']]

    bt = time()
    model_vals = list(map(linreg, [1,2,3]))
    mval = model_vals[0]
    print(mval.summary())
    serial_time = time() - bt

    bt1 = time()
    model_vals_1 = list(futures.map(linreg, [1,2,3]))
    mval_1 = model_vals_1[0]
    print(mval_1.summary())
    parallel_time = time() - bt1

    print(serial_time, parallel_time)

Run Code Online (Sandbox Code Playgroud)

然而，之后回归摘要确实是通过 Python 的标准映射函数串行生成的，出现错误：

回溯（最近一次调用最后一次）：文件“C:\Users\niccolo.gentile\AppData\Local\Continuum\anaconda3\envs\tensorenviron\lib\runpy.py”，第193行，在_run_module_as_main“ main ”，mod_spec）文件“C:\Users\niccolo.gentile\AppData\Local\Continuum\anaconda3\envs\tensorenviron\lib\runpy.py”，第 85 行，在 _run_code exec(code, run_globals) 文件“C:\Users\niccolo.gentile” \AppData\Local\Continuum\anaconda3\envs\tensorenviron\lib\site-packages\scoop\bootstrap__main__.py”，第 302 行，在 b.main() 文件“C:\Users\niccolo.gentile\AppData\Local\ Continuum\anaconda3\envs\tensorenviron\lib\site-packages\scoop\bootstrap__main__.py”，第 92 行，主 self.run() 文件“C:\Users\niccolo.gentile\AppData\Local\Continuum\anaconda3\ envs\tensorenviron\lib\site-packages\scoop\bootstrap__main__.py”，第 290 行，运行 futures_startup() 文件“C:\Users\niccolo.gentile\AppData\Local\Continuum\anaconda3\envs\tensorenviron\lib\ site-packages\scoop\bootstrap__main__.py"，第 271 行，在 futures_startup run_name=" main " 文件 "C:\Users\niccolo.gentile\AppData\Local\Continuum\anaconda3\envs\tensorenviron\lib\site-packages\ scoop\futures.py”，第 64 行，在 _startup 结果 = _controller.switch(rootFuture, *args, **kargs) 文件“C:\Users\niccolo.gentile\AppData\Local\Continuum\anaconda3\envs\tensorenviron\ lib\site-packages\scoop_control.py”，第 253 行，在 runController 中引发 future.exceptionValue 文件“C:\Users\niccolo.gentile\AppData\Local\Continuum\anaconda3\envs\tensorenviron\lib\site-packages\scoop_control .py”，第 127 行，在 runFuture future.resultValue = future.callable(*future.args, **future.kargs) 文件“C:\Users\niccolo.gentile\AppData\Local\Continuum\anaconda3\envs\tensorenviron \lib\runpy.py”，第 263 行，在 run_path pkg_name=pkg_name，script_name=fname 中）文件“C:\Users\niccolo.gentile\AppData\Local\Continuum\anaconda3\envs\tensorenviron\lib\runpy.py” ，第 96 行，在 _run_module_code mod_name, mod_spec, pkg_name, script_name) 文件“C:\Users\niccolo.gentile\AppData\Local\Continuum\anaconda3\envs\tensorenviron\lib\runpy.py”，第 85 行，在 _run_code exec 中（代码，run_globals）文件“Scoop_map_ Linear_regression1.py”，第 33 行，在 model_vals_1 = list(futures.map(linreg, [1,2,3])) 文件“C:\Users\niccolo.gentile\AppData\Local\ Continuum\anaconda3\envs\tensorenviron\lib\site-packages\scoop\futures.py”，第 102 行，在 _mapGenerator 中，用于 _waitAll(*futures) 中的未来：文件“C:\Users\niccolo.gentile\AppData\Local\ Continuum\anaconda3\envs\tensorenviron\lib\site-packages\scoop\futures.py”，第 358 行，在 _waitAll 中 for f in _waitAny(future)：文件“C:\Users\niccolo.gentile\AppData\Local\Continuum \anaconda3\envs\tensorenviron\lib\site-packages\scoop\futures。py”，第 335 行，在 _waitAny 中引发 childFuture.exceptionValue NameError：名称“y_vals”未定义

之后产生。这意味着代码停止于model_vals_1 = list(futures.map(linreg, [1,2,3]))。

我也尝试使用地图运行它两次，并且确实没有出现错误。

我还指定脚本已正确启动：

python -m scoop Scoop_map_linear_regression1.py

Run Code Online (Sandbox Code Playgroud)

从 Anaconda Prompt 命令行。

事实上，如果在没有 -m scoop 参数的情况下启动它，它不会并行化并且实际上会运行，而只是使用 Python 内置映射函数的两倍，就像在警告中报告的那样。也就是说，如果启动时不指定 -m scoop 参数，futures.map 将被 map 替换。

我的目标是使用 futures.map 并行运行它，并评估性能改进。

指定它以避免任何其他类似的答案并因此被搁置。

任何评论都受到高度赞赏和欢迎。

归档时间：	6 年，11 月前
查看次数：	794 次
最近记录：	6 年，10 月前