关于我之前的类似SO问题,我尝试在AWS上使用雪/降雪进行并行计算.
我做的是:
sfInit()
函数中,我提供了公共DNS到这样的socketHosts
参数
sfInit(parallel=TRUE,socketHosts =list("ec2-00-00-00-000.compute-1.amazonaws.com"))
Permission denied (publickey)
我有什么遗漏的吗?如果用户可以分享他们在AWS上使用雪的经验,我将非常感激.
非常感谢你的建议.
更新:我只是想更新我发现的具体问题的解决方案:
snowfall
在群集的所有节点上安装的包hostslist <- list("ec2-xxx-xx-xxx-xxx.compute-1.amazonaws.com","ec2-xx-xx-xxx-xxx.compute-1.amazonaws.com")
sfInit(parallel=TRUE, cpus=2, type="SOCK",socketHosts=hostslist)
l <- sfLapply(1:2,function(x)system("ifconfig",intern=T))
lapply(l,function(x)x[2])
sfStop()
parallel-processing r amazon-web-services snowfall starcluster
StarCluster是Amazon EC2的知名工具包。但是,它是基于Python 2开发的,如果过时了,它将淘汰。而且它与Python 3.x不兼容。
所以我想知道StarCluster可以替代吗?我在stackoverflow中进行了搜索,但没有找到答案。有人知道吗?我期待着您的建议!谢谢!
amazon-s3 amazon-ec2 amazon-web-services alternate starcluster
有谁知道GCE是否有Starcluster等价物?我非常高兴使用Starcluster和EC2进行令人尴尬的并行工作.现在我想试试GCE.我很乐意为可能正在进行的任何项目做出贡献,但我没有找到任何东西.
现在,我想我只需手动安装我需要的软件(即Open Grid Engine)并生成一个复制图像.不是太难,但我想我先在这里查看.
grid sungridengine embarrassingly-parallel google-compute-engine starcluster
我需要在Google Compute Engine上设置并运行"令人尴尬"的并行作业.我正在寻找工具来促进这一点.
在EC2上,我使用MIT的Starcluster来设置集群,然后将作业提交给SGE.
Google Compute Engine还有类似的工具吗?
如果没有,我可能会手动设置一个Condor Cluster来完成这些工作.嗡嗡杀人.
sungridengine embarrassingly-parallel condor google-compute-engine starcluster
如何修改StarCluster配置或代码以包含IAM角色?
这样当我这样做时:
starcluster start mycluster
Run Code Online (Sandbox Code Playgroud)
可以在EC2实例(主节点和节点)中自动激活IAM角色.我确实试图环顾四周,但没有任何可用的信息.
cluster-computing amazon-s3 amazon-ec2 amazon-web-services starcluster
我有一个Python科学模型,它调用一些C代码并使用numpy,scipy和许多地理分析模块.我想在EC2上部署它,但我对EC2还不太了解.
我已经检查过,在设置了源自StarCluster AMI的AMI后,我可以使用StarCluster包来部署我的堆栈.这些已经有numpy和scipy以及ipython,所以我所要做的就是添加地理模块.
我的计划是编写一个独立的GUI,在客户的机器上运行,并确保他们的输入对我的模型有效.然后,独立GUI将最多约10 GB的压缩档案发送到FTP位置.然后他们登录我在EC2上运行的网页,在那里他们配置运行属性(实例数,模型运行数).该网页启动一个脚本,该脚本在客户指定的大小集群上完成客户的工作.后处理器处理模型输出并写入结果网页和图形,这些网页和图形最初受密码保护,仅供客户查看.我的模型运行包括可能需要5分钟到3个小时的单独迭代.
任何人都可以提供任何有关此型号理想设置的建议吗?我想我可以弄清楚它的科学部分,但我不知道运行网络界面的起点是什么......
谢谢
我正在尝试使用AWS上的集群计算进行实验.我对此非常陌生并且遇到了一些问题.我正在尝试按照此处的教程进行操作:http://star.mit.edu/cluster/docs/latest/plugins/ipython.html#using-the-ipython-cluster.我使用starcluster来启动具有以下内容的集群实例:
starcluster start mycluster
Run Code Online (Sandbox Code Playgroud)
一切都按预期出现,它表明ipython插件已加载.然后我尝试执行以下命令,如教程中所示:
starcluster sshmaster mycluster -u myuser
Run Code Online (Sandbox Code Playgroud)
然而,连接失败了,告诉我
Permission denied (publickey).
Run Code Online (Sandbox Code Playgroud)
我可以使用登录
starcluster sshmaster mycluster
Run Code Online (Sandbox Code Playgroud)
所以我试图继续登录到主人的教程,但是当我尝试创建我收到的客户端时出错并且:
AssertionError: Not a valid connection file or url:
u'/root/.ipython/profile_default/security/ipcontroller-client.json'
Run Code Online (Sandbox Code Playgroud)
我看到的唯一与众不同的是群集启动时出现的情况:
>>> Running plugin ipcluster
>>> Writing IPython cluster config files
>>> Starting IPython cluster with 7 engines
>>> Waiting for JSON connector file...
>>> Creating IPCluster cache directory: /Users/username/.starcluster/ipcluster
>>> Saving JSON connector file to '/Users/username/.starcluster/ipcluster/mycluster-us-east-1.json'
!!! ERROR - Error occurred while running plugin 'ipcluster':
Traceback (most …
Run Code Online (Sandbox Code Playgroud) 我认为这是一个非常简单的问题,但我一直没有找到一个简单的答案.
我正在运行一个终止AWS集群的python程序(使用starcluster).我只是使用子进程从我的python程序调用一个命令,如下所示.
subprocess.call('starcluster terminate cluster', shell=True)
Run Code Online (Sandbox Code Playgroud)
实际命令在很大程度上与我的问题无关,但提供了一些背景信息.此命令将开始终止集群,但在继续之前将提示输入yes/no,如下所示:
Terminate EBS cluster (y/n)?
Run Code Online (Sandbox Code Playgroud)
如何在我的python程序中自动输入yes作为此提示的输入?
我正在使用 numpy 在使用 sun Grid Engine 分发作业(starcluster)的集群上运行相同作业的多次重复。我的每个节点都有 2 个内核(AWS 上的 c3.large)。所以说我有 5 个节点,每个节点有 2 个内核。
numpy 中的矩阵运算一次可以使用多个核心。我发现 SGE 将发送 10 个作业同时运行,每个作业使用一个核心。这导致作业的运行时间更长。看看 htop,看起来每个核心上的两个作业都在争夺资源。
我如何告诉 qsub 为每个节点分配 1 个作业。这样当我提交作业时,一次只能运行 5 个,而不是 10 个?