我在erlang集群中运行了几个节点,每个节点使用相同的魔术cookie并且相互信任.我想让一个主节点向其他节点发送代码和模块.我怎样才能做到这一点?
我正在为MPI创建新的派生数据类型以从Counter结构发送数据,你知道在MPI中创建新类型是痛苦和棘手的,因为如果我在正确的轨道上我需要一些帮助并且谢谢你?
typedef struct Counter{
int range1,range2,range3,range4;
double preset1 ,preset2 ,preset3 ,preset4;
} countType;
MPI_Datatype createRecType()
{
// Set-up the arguments for the type constructor
MPI_Datatype new_type;
int count = 2;
int blocklens[] = { 4, 4 };
MPI_Aint indices[4];
indices[0] = 0;
MPI_Type_extent( MPI_DOUBLE, &indices[1] );
indices[1] *= 4; // There are 2 doubles
MPI_Datatype old_types[] = { MPI_INT ,MPI_DOUBLE};
// Call the data type constructor
MPI_Type_struct(count, blocklens, indices, old_types, &new_type);
MPI_Type_commit(&new_type);
return new_type;
}
Run Code Online (Sandbox Code Playgroud) 给定一个Akka ActorSystem对象,如何找出集群中其他节点的活动状态,以及它们的状态是什么?
谢谢, - 丹尼尔
假设在创建索引时我没有设置任何副本,如果我使用更新设置 API 进行更新并将副本状态更改为 1。如果我有 2 个节点,则应在第二个节点上创建副本,因为在主节点端副本将未创建,因为集群状态显示为黄色,即使我们将副本启用为 1,分片也未分配给 node2。
请分享为什么副本分片没有分配给 node2?
但是在集群启动节点上显示它们检测到并相互加入。
我正在寻找一组指令来在Window 7 64位PC上创建本地多节点Cassandra 2.x集群.
它最好使用CCM"Cassandra Cluster Manager"并允许使用DataStax OpsCenter进行管理
我按照" 轻松实现Windows上的Apache Cassandra入门 "中的说明进行操作,但它们适用于单节点群集.
编辑:我坚持使用CCM在每个节点上部署OpsCenter代理,任何想法?
cluster-computing cassandra windows-7-x64 opscenter cassandra-2.2
Docker Swarm模式实现内部负载均衡,据我所知,nginx称为硬负载均衡,zookeeper是一种软负载均衡.
那么内部负载平衡与Docker v1.12一起出现的机制是什么?
它是否嵌入了nginx或类似于zookeeper的类似方法?
我正在使用 Amazon EC2,并且我的主服务器和开发服务器合二为一。我还有一个单独的工人实例。
我是新手,但我已经设法让 spark 在独立模式下工作。现在我正在尝试集群。master 和 worker 处于活动状态(我可以看到它们的 webUI 并且它们正在运行)。
我有 Spark 2.0,并且安装了 Python 3.5.2 附带的最新 Anaconda 4.1.1。在 worker 和 master 中,如果我去 pyspark 并执行 os.version_info,我将得到 3.5.2,我还正确设置了所有环境变量(如 stackoverflow 和 google 上的其他帖子中所见)(例如,PYSPARK_PYTHON) .
无论如何都没有 3.4 版本的 python。所以我想知道如何解决这个问题。
我通过运行这个命令得到错误:
rdd = sc.parallelize([1,2,3])
rdd.count()
Run Code Online (Sandbox Code Playgroud)
count() 方法发生错误:
16/08/13 18:44:31 ERROR Executor: Exception in task 1.0 in stage 2.0 (TID 17)
org.apache.spark.api.python.PythonException: Traceback (most recent call last):
File "/opt/spark/python/lib/pyspark.zip/pyspark/worker.py", line 123, in main
("%d.%d" % sys.version_info[:2], version))
Exception: Python in worker has different version 3.4 …Run Code Online (Sandbox Code Playgroud) 我正在使用plotly(以便在悬停时能够获取点信息)来可视化我的聚集散点图。我在为使用KMeans生成的群集分配不同的颜色时遇到麻烦。当在matplotlib.pyplot中绘制此图形时(如plt),我使用以下代码:
plt.scatter(restult[:,0], result[:,1], c=cluster_labels
Run Code Online (Sandbox Code Playgroud)
cluster_labels为:
n_clusters = 3
km = KMeans(n_clusters).fit(result)
labels = km.labels_
Run Code Online (Sandbox Code Playgroud)
它工作正常,但是我需要鼠标悬停的信息。
这是我到目前为止所处的情节:
trace = go.Scatter(
x = result[:,0],
y = result[:,1],
mode = 'markers',
text = index, # I want to see the index of each point
)
data = [trace]
# Plot and embed in ipython notebook!
py.iplot(data, filename='basic-scatter')
Run Code Online (Sandbox Code Playgroud)
感谢您的帮助!
我正在使用一个非常基本的 python 代码(文件名:)test_mpi.py来尝试使用 mpi4py 在 python 中进行并行编程。我想做的是拥有一个所有条目都为零的二维 numpy 数组。然后使用集群中的特定处理器来增加 numpy 数组的特定元素的值。
具体来说,我有一个 3*3 numpy 矩阵 ( mat),其中所有元素均为零。当我的代码完成运行(跨多个处理器)后,我希望矩阵如下所示:
mat = [[ 1. 2. 3.]
[ 4. 5. 6.]
[ 7. 8. 9.]]
Run Code Online (Sandbox Code Playgroud)
这是一个相当简单的任务,我希望我的代码在几分钟内完成运行(如果不是更短的时间)。我的代码持续运行很长时间并且不会停止执行(最终我必须在几个小时后删除该作业。)
这是我的代码:
from __future__ import division
from mpi4py import MPI
import os
import time
import numpy as np
comm = MPI.COMM_WORLD
nproc = comm.Get_size()
rank = comm.Get_rank()
start_time = time.time()
mat = np.zeros((3,3))
comm.bcast([ mat , MPI.DOUBLE], root=0)
for proc in range(1, nproc):
if rank == …Run Code Online (Sandbox Code Playgroud) 到目前为止,我只在YARN作为资源管理器的Hadoop集群上使用了Spark。在这种类型的集群中,我确切地知道要运行多少个执行程序以及资源管理的工作方式。但是,知道我正在尝试使用独立Spark集群,我有些困惑。纠正我在哪里我错了。
在本文中,默认情况下,辅助节点使用该节点的所有内存减去1 GB。但我知道通过使用SPARK_WORKER_MEMORY,我们可以使用更少的内存。例如,如果节点的总内存为32 GB,但我指定了16 GB,那么Spark worker是否在该节点上使用的内存不会超过16 GB?
但是执行者呢?让我们说如果我要在每个节点上运行2个执行程序,是否可以通过将期间的执行程序内存指定spark-submit为的一半来执行此操作SPARK_WORKER_MEMORY,是否要在每个节点上运行4个执行程序,通过将执行程序内存指定为四分之一的值来执行此操作SPARK_WORKER_MEMORY?
如果是这样的话,我认为,除了执行程序内存外,我还必须正确指定执行程序核心。例如,如果我要在一个工人上运行4个执行程序,则必须将执行程序核心指定为SPARK_WORKER_CORES?的四分之一。如果我指定一个更大的数字会怎样?我的意思是,如果我将执行程序的内存指定为内存的四分之一SPARK_WORKER_MEMORY,但是执行程序的核心仅是内存的一半SPARK_WORKER_CORES?在这种情况下,我将让2或4个执行程序在该节点上运行吗?
hadoop scala cluster-computing apache-spark apache-spark-standalone
apache-spark ×2
python ×2
akka ×1
akka-cluster ×1
c ×1
c++ ×1
cassandra ×1
docker ×1
docker-swarm ×1
erlang ×1
hadoop ×1
hpc ×1
mpi ×1
mpi4py ×1
nginx ×1
nodes ×1
opscenter ×1
plotly ×1
python-2.7 ×1
scala ×1
scatter-plot ×1
struct ×1
version ×1