标签: cluster-computing

节点集群工作人员内存使用情况

有谁知道是否有一种独立于平台的方法来获取工作人员的内存使用情况?我希望它会像这样工作:

console.log('App process memoryUsage: ',process.memoryUsage());
cluster.on('online',function(worker){    // doesn't work! 
  console.log('Workers memory usage: ',worker.process.memoryUsage());  
});
Run Code Online (Sandbox Code Playgroud)

但工人进程没有办法memoryUsage()

是否有一个没有实施的正当理由?

top -pid 1234实现这一点的唯一想法是在 unix (macosx) 或Linux上工作top -p 1234。并通过 切换process.plattform

unix macos cluster-computing worker node.js

3
推荐指数
1
解决办法
3268
查看次数

配置clickhouse集群时remote-server元素应该位于哪里

我正在设置一个 clickhouse 集群,正如教程所说应该添加“remote_servers”,然后我转向 /etc/clickhouse-server/config.xml,我看到 <remote_servers incl="clickhouse_remote_servers"> 后面跟着 [1 ]: https://i.stack.imgur.com/AHBBg.png
我对这些文件 /etc/metrika.xml 和 /yandex/name_of_substitution 感到困惑。谁能举个例子,谢谢

cluster-computing clickhouse

3
推荐指数
1
解决办法
1788
查看次数

Spring stomp 多应用服务器的配置

我正在 Spring 4 中使用内置消息代理和基于 WebSocket 的 STOMP 开发实时通知系统。

我想处理存在多应用程序服务器且用户目标未解析的情况(因为用户连接到另一台服务器)。Spring 文档声称有一个解决方案:

在多应用程序服务器场景中,由于用户连接到不同的服务器,因此用户目标可能仍未解析。在这种情况下,您可以配置一个目标来广播未解析的消息,以便其他服务器有机会尝试。这可以通过 Java 配置中 MessageBrokerRegistry 的 userDestinationBroadcast 属性和 XML 中 message-broker 元素的 user-destination-broadcast 属性来完成。

但没有这样的配置示例。如何设置服务器接收这些消息以及系统通道的认证参数?

java spring stomp cluster-computing websocket

3
推荐指数
1
解决办法
2652
查看次数

Kubernetes 集群 x509:证书问题

我使用官方 kubernetes github 分支上的本教程,使用kops在aws上设置Kubernetes集群。

集群在 AWS 上成功设置,但是当我尝试运行时

kubectl get nodes
Run Code Online (Sandbox Code Playgroud)

或者

kops validate cluster
Run Code Online (Sandbox Code Playgroud)

它说

[user@ip-70-0-0-7 ~]$ kubectl cluster-info
Unable to connect to the server: x509: certificate is valid for *.secure.hosting prod.com, not api.subdomain.mydomain.com
Run Code Online (Sandbox Code Playgroud)

这绝对是我的x509 证书的问题。只需轻轻推向正确的方向即可。感谢您的宝贵时间和帮助!

NOTE: I am running these commands from outside the cluster from a machine from where I did set up of cluster.

cluster-computing amazon-web-services x509 kubernetes kops

3
推荐指数
1
解决办法
4694
查看次数

如何使用 R future 包在集群内进行并行计算?

我想for在集群的节点(几台机器)内分配作业(带有循环)。我尝试使用 R 包future来做到这一点。我不知道这是否是最好的方法;我尝试使用foreachdoParallel包,但没有成功。如何判断循环迭代次数何时大于集群节点数?

library(doParallel);
library(doFuture);
#library(future);

registerDoFuture();

workers <- c(rep("129.20.25.61",1), rep("129.20.25.217",1));
cl <- makeClusterPSOCK(workers, revtunnel = TRUE, outfile = "", verbose = FALSE);

plan(cluster, workers = cl)

mu <- 1.0
sigma <- 2.0

for(i in 1:3){
 res %<-%{ rnorm(i, mean = mu, sd = sigma)}
 print(i);
}
Run Code Online (Sandbox Code Playgroud)

parallel-processing r cluster-computing r-future

3
推荐指数
1
解决办法
2185
查看次数

Jupyter Notebook集群有什么用

你能告诉我jupyter cluster有什么用吗?我创建了jupyter集群,并建立了它的连接。但我仍然很困惑,如何有效地使用这个集群?

谢谢

python cluster-computing python-3.x jupyter jupyter-notebook

3
推荐指数
1
解决办法
1万
查看次数

Spark 2.2 数据集巨大时 Join 失败

我目前在尝试使用Spark DataFrame API将一个巨大的数据集(654 GB)与一个较小的数据集(535 MB)(内部)连接时遇到问题。

我使用 Broadcast() 函数将较小的数据集广播到工作节点。

我无法在这两个数据集之间进行连接。这是我收到的错误示例:

19/04/26 19:39:07 INFO executor.CoarseGrainedExecutorBackend: Got assigned task 1315
19/04/26 19:39:07 INFO executor.Executor: Running task 25.1 in stage 13.0 (TID 1315)
19/04/26 19:39:07 INFO output.FileOutputCommitter: File Output Committer Algorithm version is 1
19/04/26 19:39:07 INFO datasources.SQLHadoopMapReduceCommitProtocol: Using output committer class org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter
19/04/26 19:39:07 INFO datasources.FileScanRDD: Reading File path: SOMEFILEPATH, range: 3087007744-3221225472, partition values: [empty row]
19/04/26 19:39:17 INFO datasources.FileScanRDD: Reading File path: SOMEFILEPATH, range: 15971909632-16106127360, partition values: [empty row]
19/04/26 …
Run Code Online (Sandbox Code Playgroud)

join cluster-computing hdfs apache-spark apache-spark-sql

3
推荐指数
1
解决办法
5148
查看次数

如何定位EKS集群中的实例?

如何查看哪些实例与 EKS 集群关联?

我可以使用 AWS CLI 列出集群名称并描述集群,但如何查看集群中实际存在哪些实例?

aws eks list-clusters --region us-east-1

    "clusters": [
        "foo-cluster",
        "bar-cluster"
    ]
}
Run Code Online (Sandbox Code Playgroud)

aws eks describe-cluster --name foo-cluster

{
    "cluster": {
        "name": "foo-cluster",
        "arn": "arn:aws:eks:us-east-1:12345:cluster/foo-cluster",
        "createdAt": 1554068824.493,
        "version": "1.13",
        "endpoint": "https://12345.abc.us-east-1.eks.amazonaws.com",
        "roleArn": "arn:aws:iam::12345:role/foo-cluster12345",
        "resourcesVpcConfig": {
            "subnetIds": [
                "subnet-45678",
                "subnet-34567",
                "subnet-23456",
                "subnet-12345"
            ],
            "securityGroupIds": [
                "sg-12345"
            ],
            "vpcId": "vpc-12345"
        },
        "status": "ACTIVE",
        "certificateAuthority": {
            "data": "zubzubzub="
        },
        "platformVersion": "eks.2"
    }
}

Run Code Online (Sandbox Code Playgroud)

containers cluster-computing nodes aws-cli kubernetes

3
推荐指数
1
解决办法
3492
查看次数

如何在 sns clustermap 中标记集群

我正在使用以下代码创建聚类图。

import numpy as np
import pandas as pd
import seaborn as sns

all_net_names  = ['early_vis', 'face', 'motion', 'scene', 'scene', 'scene', 
                  'dmn', 'dmn', 'dmn', 'dmn', 'dmn', 'dmn', 'reward', 'reward',
                  'reward', 'reward', 'reward', 'ofc', 'ofc', 'ofc', 'ofc']

roi_names = ['E', 'F', 'M', 'S1', 'S2', 'S3', 'D1', 'D2', 'D3', 'D4', 'D5',
             'D6', 'R1', 'R2', 'R3', 'R4', 'R5','O1', 'O2', 'O3', 'O4']

n_roi = len(roi_names)
M = np.random.rand(n_roi, n_roi) # array to plot

net_ind = sorted(np.unique(all_net_names, return_index=True)[1])
net_names = [all_net_names[index] for index in sorted(net_ind)] …
Run Code Online (Sandbox Code Playgroud)

python cluster-computing seaborn

3
推荐指数
1
解决办法
1875
查看次数

如何找到已完成的 SLURM 作业的排队时间?

我正在尝试找到一种方法来查看已完成作业的等待时间,直到它们在使用 SLURM 作为工作负载管理器的集群上启动为止。

我知道“sacct”命令可以打印有关已完成作业的大量信息,但我没有发现任何对我的任务有用的信息。

完美的是:

  • 作业开始排队的时间
  • 我提交作业的时间戳或日期(然后我可以计算出等待时间,因为“sacct”通过“Start”字段提供了有关作业开始时间的信息)

您有什么有用的提示吗?

cluster-computing slurm sbatch sacct

3
推荐指数
1
解决办法
3601
查看次数