标签: cluster-computing

是否有 sbatch 错误消息的输出日志/目录?

我正在运行一个 sbatch 脚本,它已成功提交。

sbatch sbatch_script.sh

Submitted batch job 309376

squeue -u <my_username>但是当我运行并且没有生成输出时它不会显示。

有没有办法检查出了什么问题?例如,我可以检查一些环境变量设置/输出日志吗?

cluster-computing scientific-computing job-scheduling slurm

2
推荐指数
1
解决办法
1万
查看次数

AWS ECS 集群 - 为什么任务定义需要内存、CPU 和卷?

为什么创建任务定义时任务定义需要内存、CPU 和卷?容器需要 CPU 和 Mem,这是有道理的。但为什么任务定义需要这样呢?

我理解它,因为它的名字暗示它只是一个任务,但现在我想知道它是什么?

cluster-computing amazon-web-services amazon-ecs

2
推荐指数
1
解决办法
819
查看次数

bash脚本:执行命令并将其输出传递给awk

我在使用bash脚本时遇到问题。基本上,在我的脚本中运行命令

bjobs -u $1
Run Code Online (Sandbox Code Playgroud)

$ 1是脚本参数,它是集群中用户的ID。如果用户$ 1在群集上没有正在运行/待处理的作业,则打印bjobs

 No unfinished jobs found
Run Code Online (Sandbox Code Playgroud)

到标准输出。另外,退出状态为255。如果用户$ 1确实有工作,则bjobs将输出:

JOBID   USER    STAT  QUEUE      FROM_HOST   EXEC_HOST   JOB_NAME   SUBMIT_TIME
45823   .......
45824   .......
.
.
Run Code Online (Sandbox Code Playgroud)

并且退出状态为0。我想awk解析bjobs的输出。我试过了

bjobs -u $1 | awk '...'
Run Code Online (Sandbox Code Playgroud)

其中“ ...”是我的awk解析程序。这不能很好地工作,因为显然,当用户$ 1没有正在运行/待处理的作业时,字符串“未找到未完成的作业” 不会传递给awk。同样的情况发生在

bjobs -u $1 > foo
awk '...' foo 
Run Code Online (Sandbox Code Playgroud)

有什么建议么?

bash awk cluster-computing

1
推荐指数
1
解决办法
1528
查看次数

在两台主机上运行MPI

我看了很多例子,我仍然感到困惑.我从这里编译了一个简单的延迟检查程序,它在一台主机上运行完美,但是当我尝试在两台主机上运行时,它会挂起.但是,运行像hostname运行良好的东西:

[hamiltont@4 latency]$ mpirun --report-bindings --hostfile hostfile --rankfile rankfile -np 2 hostname
[4:16622] [[5908,0],0] odls:default:fork binding child [[5908,1],0] to slot_list 0
4
[5:12661] [[5908,0],1] odls:default:fork binding child [[5908,1],1] to slot_list 0
5
Run Code Online (Sandbox Code Playgroud)

但这是编译的延迟程序:

[hamiltont@4 latency]$ mpirun --report-bindings --hostfile hostfile --rankfile rankfile -np 2 latency 
[4:16543] [[5989,0],0] odls:default:fork binding child [[5989,1],0] to slot_list 0
[5:12582] [[5989,0],1] odls:default:fork binding child [[5989,1],1] to slot_list 0
[4][[5989,1],0][btl_tcp_endpoint.c:638:mca_btl_tcp_endpoint_complete_connect] connect() to 10.0.2.5 failed: Connection timed out (110)
Run Code Online (Sandbox Code Playgroud)

我目前的猜测是我的防火墙规则有问题(例如主机名不在主机之间通信,但延迟程序会这样做).

[hamiltont@4 latency]$ cat rankfile …
Run Code Online (Sandbox Code Playgroud)

cluster-computing mpi

1
推荐指数
1
解决办法
4262
查看次数

设置cassandra多节点集群:'节点具有相同的令牌0'

我正在尝试在我的计算机中设置一个Cassandra多节点集群来测试,但它似乎不起作用...... Cassandra版本是1.1,它在Ubuntu上运行.

首先,我修改了每个节点的cassandra.yaml文件,如下所示:

NODE0

  • initial_token:0
  • 种子:"127.0.0.1"
  • listen_address:127.0.0.1
  • rpc_address:0.0.0.0
  • endpoint_snitch:RackInferringSnitch

节点1

node0 exept 相同:

  • initial_token:28356863910078205288614550619314017621 (使用cassandra令牌生成器)
  • listen_address:127.0.0.2

之后,我首先启动了种子节点127.0.0.1,一旦节点启动,我就启动了另一个节点127.0.0.2.我有以下内容:

[...]

INFO 06:09:27,146倾听节俭的客户......

INFO 06:09:27,909节点/127.0.0.1现在是群集的一部分

INFO 06:09:27,911 InetAddress /127.0.0.1现在已启动

信息06:09:27,913节点/127.0.0.1和/127.0.0.2具有相同的令牌0.忽略/127.0.0.1


运行nodetool -h localhost环会显示:

地址:127.0.0.2

DC:数据中心1

机架:rack1

状态:向上

状态:正常

载入:11,21 KB

拥有:100,00%

令牌:0

如您所见,只有第二个节点的信息显示拥有100%的环.实际上,令牌被初始化为0而不是我在其cassandra.yaml文件中定义的值.


八卦信息是:

/127.0.0.2

LOAD:25559.0

状态:正常,0

架构:59adb24e-f3cd-3e02-97f0-5b395827453f

RELEASE_VERSION:1.1.6-SNAPSHOT

RPC_ADDRESS:0.0.0.0

/127.0.0.1

LOAD:29859.0

状态:正常,0

架构:59adb24e-f3cd-3e02-97f0-5b395827453f

RELEASE_VERSION:1.1.6-SNAPSHOT

RPC_ADDRESS:0.0.0.0


有谁知道发生了什么,我该如何解决?非常感谢你提前!!

installation cluster-computing cassandra

1
推荐指数
1
解决办法
2252
查看次数

如何在MPI_Send()中发送struct类型的变量?

我使用MPI在C中编写了一个程序,其中struct变量将以环形方式发送给进程,并根据从该变量接收的值,分配该特定进程的工作.

问题是我需要知道如何在MPI_Send()函数中发送struct变量,因为它在运行时给出了INVALID DATATYPE,请考虑以下示例

struct info{
  int ne, n, u, v, process, min, strip, mincost, b;
} stat;

MPI_Send(&stat,sizeof(stat),sizeof(struct info),1,2,MPI_COMM_WORLD);
Run Code Online (Sandbox Code Playgroud)

parallel-processing cluster-computing mpi

1
推荐指数
1
解决办法
6747
查看次数

我的RabbitMQ群集是Active Active还是Active Passive?

我使用join_cluster命令创建了一个由三个RabbitMQ节点组成的集群.

rabbitmqctl –n rabbit2@MYPC1 join_cluster rabbit2@MYPC1 
Run Code Online (Sandbox Code Playgroud)

(目前集群在一台计算机上运行)

问题:
文档中,它说有一个主动被动实现,一个主动主动.

  1. 我配置了什么?
  2. 我怎么知道?
  3. 怎么改变?
  4. Active Active和Active Passive之间是否有很大的性能折衷?
  5. 与主动/主动互动的最佳做法是什么?
    即安装负载均衡器?将要循环的阿帕奇
  6. 与主动/被动交互的最佳实践是什么?
    如果我只与活动交互 - 这是单点f失败

谢谢.

queue cluster-computing rabbitmq messagebroker

1
推荐指数
1
解决办法
3435
查看次数

MP J Express中Scatter and Gather的工作原理

我要为我的项目创建一个新的集群api.所以这些天我开始学习MP J Express.我只是用这种方式用Scatter和Gather编写程序.但是我得到Null点异常.没有想到哪里出错了?

这是我的代码

    import mpi.MPI;

    public class ScatterGather {
        public static void main(String args[]){
        MPI.Init(args);
        int rank = MPI.COMM_WORLD.Rank();
        int size = MPI.COMM_WORLD.Size();
        int unitSize=4,root=0;
        int sendbuf[]=null;
        if(rank==root){
          sendbuf= new int[unitSize*size];
        }
        int recvbuf[] = new int[unitSize];
      MPI.COMM_WORLD.Scatter(sendbuf,0,unitSize,MPI.INT,recvbuf,0,unitSize,MPI.INT,root);
        if(rank!=root){
            for(int i=0;i<unitSize;i++){
               recvbuf[i]=rank;
            }
        }
      MPI.COMM_WORLD.Gather(recvbuf,0,unitSize,MPI.INT,sendbuf,0,unitSize,MPI.INT,root);
        if(rank==root){
           for(int i=0;i<unitSize;i++){
                System.out.println(sendbuf[i]+ " ");
           }
        }
        MPI.Finalize();
     }
}
Run Code Online (Sandbox Code Playgroud)

这是错误日志

MPJ Express (0.43) is started in the multicore configuration
mpi.MPIException: java.lang.NullPointerException
at mpi.SimplePackerInt.unpack(SimplePackerInt.java:112)
at mpi.Comm.recv(Comm.java:1499)
at mpi.PureIntracomm.MST_Scatter(PureIntracomm.java:1102)
at mpi.PureIntracomm.Scatter(PureIntracomm.java:1066)
at mpi.Intracomm.Scatter(Intracomm.java:420)
at …
Run Code Online (Sandbox Code Playgroud)

java cluster-computing mpi mpj-express

1
推荐指数
1
解决办法
1009
查看次数

什么是couchbase服务器中的群集/存储桶

我一般都是Couchbase和NoSql技术的新手,但我正在研究使用express和其他模块在节点js上运行的网络聊天应用程序.

我选择使用NoSql来存储会话和服务器端所需的所有数据.但我真的不了解Couchbase的一些重要功能:什么是群集,一个桶?哪里可以找到服务器工作原理的明确定义?

cluster-computing bucket couchbase server

1
推荐指数
1
解决办法
850
查看次数

奥尔良的工作分配

在Microsoft Orleans中,我尝试使用以下代码实现类似可用工作的列表:

        public Task<WorkResponse> PerformWork(WorkRequest request)
    {
        Console.WriteLine("Performing work for id: {0}", request.Param1);
        Thread.Sleep(TimeSpan.FromSeconds(10));                       

        var result = Task.FromResult(new WorkResponse(request.Param1, request.Param2, request.Param3));
        Console.WriteLine("Completed work for id: {0}", request.Param1);

        return result;
    }
Run Code Online (Sandbox Code Playgroud)

但是,如果我使用像这样的代码启动许多任务,那么事情就不会正常.

                _work
                .ToList()
                .AsParallel()                    
                .ForAll(x =>
                {        
                    Console.WriteLine("Requesting work for id: {0}", x.Key);
                    var worker = GrainFactory.GetGrain<IWork>(x.Key);
                    var response = worker.PerformWork(x.Value);

                    Console.WriteLine("Response for work id: {0}", x.Key);
                });
Run Code Online (Sandbox Code Playgroud)

但是,如果另一个节点加入群集,则工作似乎永远不会移动到新节点.仅在该新节点上处理新计划的工作.

似乎如果奥尔良队列中有一堆额外的工作,那么新节点就会加入群集.

c# distributed-computing cluster-computing orleans

1
推荐指数
1
解决办法
591
查看次数