标签: cluster-computing

我正在运行R中的termstrc收益率曲线分析包,其中包含5个不同国家的10年每日债券价格数据.这是高度计算密集型的,在标准的lapply上每个国家需要3200秒,如果我在2009 i7 mac上使用foreach和%dopar%(使用doSNOW),使用所有4个核心(8个超线程)我将其归结为850秒每次我添加一个国家(计算国家间利差)时我都需要重新运行这种分析,而且我还有19个国家可以使用,未来会有更多的信用收益曲线.所花费的时间开始看起来像一个主要问题.顺便说一句,有问题的termstrc分析函数在R中访问,但用C语言编写.

现在,我们是一个12人的小公司(预算有限),全部配备8GB内存,i7个电脑,其中至少有一半用于平凡的文字处理/电子邮件/浏览风格任务,即使用5%最大的表现.它们都使用千兆位(但不是10千兆位)以太网联网.

我可以使用MPI对其中一些未充分利用的PC进行集群,并对它们进行R分析吗？网络会受到影响吗？收益率曲线分析函数的每次迭代大约需要1.2秒,因此我假设如果并行处理的粒度是将整个函数迭代传递给每个集群节点,那么与千兆位以太网滞后相比,1.2秒应该是非常大的？

可以这样做吗？怎么样？那会对我的同事产生什么影响呢.我在给他们的机器征税时能否继续阅读他们的电子邮件？

我注意到Open MPI似乎不再支持Windows,而MPICH似乎也是如此.如果有的话,你会用哪个？

也许在每台PC上运行一个Ubuntu虚拟机？

parallel-processing r cluster-computing mpi

Tho*_*wne

2013 02-23

12
推荐指数

2
解决办法

2万
查看次数

Apache Spark是否适用于大量小型,快速计算和一些大型非交互式计算？

我正在评估Apache Spark,看它是否是满足以下要求的好平台:

云计算环境.
商品硬件.
分布式数据库(例如HBase),可能有几PB的数据.
需要快速完成的大量同步小计算(在几秒钟内).小意味着1-100 MB的数据.
一些不需要快速完成的大型计算(小时很好).大意味着10-1000 GB的数据.
很少,非常大的计算不需要快速完成(天很好).非常大意味着10-100 TB的数据.
所有计算都是相互独立的.
某些计算的实时数据流传入.
涉及机器学习.

阅读了一些关于Spark的内容,我发现了以下优点:

在商品硬件和HBase/Cassandra上运行良好.
MLlib用于机器学习.
Spark Streaming用于实时数据.
虽然MapReduce似乎并不是必需的,但也许它可以加快速度,并且如果将来需求变得更紧,我们会让它们适应.

这些是我仍然存在的主要问题:

它可以非常快速地进行小型计算吗？
它会对大量同时进行的小型计算进行负载平衡吗？

我也想知道我是不是一般都没有尝试将Spark用于不是专门设计的目的,而不是使用主要优点:MapReduce和内存中的RDD.如果是这样,我也欢迎提出替代方案的建议.非常感谢!

architecture cloud platform cluster-computing apache-spark

Jan*_*ski

lucky-day

12
推荐指数

1
解决办法

5210
查看次数

使用dask分发时出现OMP_NUM_THREADS错误

我使用分布式,一个允许并行计算的框架.在这里,我的主要用例是NumPy.当我包含依赖的NumPy代码时np.linalg,我收到一个错误OMP_NUM_THREADS,它与OpenMP库有关.

一个最小的例子:

from distributed import Executor
import numpy as np
e = Executor('144.92.142.192:8786')

def f(x, m=200, n=1000):
    A = np.random.randn(m, n)
    x = np.random.randn(n)
    #  return np.fft.fft(x)  # tested; no errors
    #  return np.random.randn(n)  # tested; no errors
    return A.dot(y).sum()  # tested; throws error below

s = [e.submit(f, x) for x in [1, 2, 3, 4]]
s = e.gather(s)

Run Code Online (Sandbox Code Playgroud)

当我使用linalg测试进行测试时,e.gather失败,因为每个作业都会抛出以下错误:

OMP: Error #34: System unable to allocate necessary resources for …

Run Code Online (Sandbox Code Playgroud)

python numpy cluster-computing dask

Sco*_*ott

lucky-day

12
推荐指数

1
解决办法

4294
查看次数

如何在多台计算机中集群节点应用程序

我正在使用Express js和Node-cluster来利用集群我还使用PM2进行进程和内存管理.对于一台机器,它工作正常,但我的机器有2个核心,我想提供更多的核心.所以我决定加入另外3台机器,现在所有4台机器都使用LAN连接.我也可以在网络浏览器中使用IP地址访问其他机器.

现在我想连接所有机器并希望共享它们的内核,这样我最终将为我的应用程序提供2 + 6 = 8个内核.怎么可能？是否有任何节点模块可用于实现此目的？谢谢.

cluster-computing node.js express

Arp*_*mar

2019 08-20

12
推荐指数

1
解决办法

8108
查看次数

如何使用交互式会话在远程 VS 代码的调试会话中运行代码？

我正在使用一个集群（类似于 slurm 但使用condor），我想使用 VS 代码（特别是它的调试器）运行我的代码，它是远程同步扩展。

我尝试在 VS 代码中使用我的调试器运行它，但它并没有像预期的那样工作。

首先，我像往常一样使用 VS 代码和远程同步登录到集群，效果很好。然后我继续使用以下命令获取交互式作业：

condor_submit -i request_cpus=4 request_gpus=1

Run Code Online (Sandbox Code Playgroud)

然后成功地提供了一个节点/gpu 来使用。

一旦我尝试运行调试器，但它以某种方式将我从远程会话中注销（看起来它从打印语句转到头节点）。那不是我想要的。我想在我分配的节点/gpu 的交互式会话中运行我的工作。为什么 VS 代码在错误的地方运行它？我怎样才能在正确的地方运行它？

集成终端的一些输出：

source /home/miranda9/miniconda3/envs/automl-meta-learning/bin/activate
/home/miranda9/miniconda3/envs/automl-meta-learning/bin/python /home/miranda9/.vscode-server/extensions/ms-python.python-2020.2.60897-dev/pythonFiles/lib/python/new_ptvsd/wheels/ptvsd/launcher /home/miranda9/automl-meta-learning/automl/automl/meta_optimizers/differentiable_SGD.py 
conda activate base
(automl-meta-learning) miranda9~/automl-meta-learning $ source /home/miranda9/miniconda3/envs/automl-meta-learning/bin/activate
(automl-meta-learning) miranda9~/automl-meta-learning $ /home/miranda9/miniconda3/envs/automl-meta-learning/bin/python /home/miranda9/.vscode-server/extensions/ms-python.python-2020.2.60897-dev/pythonFiles/lib/python/new_ptvsd/wheels/ptvsd/launcher /home/miranda9/automl-meta-learning/automl/automl/meta_optimizers/differentiable_SGD.py 
--> main in differentiable SGD
hello world torch_utils!
vision-sched.cs.illinois.edu
Files already downloaded and verified
Files already downloaded and verified
Files already downloaded and verified
-> initialization of DiMO done!

---> i = 0, …

Run Code Online (Sandbox Code Playgroud)

cluster-computing visual-studio slurm

Cha*_*ker

2020 02-11

12
推荐指数

3
解决办法

2597
查看次数

Slurm 中的 GPU 分配：--gres 与 --gpus-per-task，以及 mpirun 与 srun

Slurm 中有两种分配 GPU 的方式：要么是通用--gres=gpu:N参数，要么是特定参数，如--gpus-per-task=N. 还有两种方法可以在批处理脚本中启动 MPI 任务：使用srun或使用通常的方法mpirun（当 OpenMPI 是使用 Slurm 支持进行编译时）。我发现这些方法之间的行为存在一些令人惊讶的差异。

我正在提交一个批处理作业，其中sbatch基本脚本如下：

#!/bin/bash

#SBATCH --job-name=sim_1        # job name (default is the name of this file)
#SBATCH --output=log.%x.job_%j  # file name for stdout/stderr (%x will be replaced with the job name, %j with the jobid)
#SBATCH --time=1:00:00          # maximum wall time allocated for the job (D-H:MM:SS)
#SBATCH --partition=gpXY        # put the job into the gpu partition
#SBATCH --exclusive             # request exclusive …

Run Code Online (Sandbox Code Playgroud)

gpu nvidia cluster-computing openmpi slurm

Jak*_*ský

2021 04-14

12
推荐指数

1
解决办法

2万
查看次数