标签: cluster-computing

Web App:高可用性/如何防止单点故障?

有人可以向我解释高可用性("HA")如何适用于Web应用程序......因为我认为HA意味着不存在单点故障.

但是,即使使用了负载均衡器,这不是单点故障吗?

load-balancing high-availability cluster-computing uptime

46
推荐指数
2
解决办法
2万
查看次数

传播与MPI对比zeromq?

具有TCP可靠性的UDP广播的答案之一中,用户提到了Spread消息传递API.我还遇到了一个叫做ØMQ的人.我对MPI也很熟悉.

所以,我的主要问题是:为什么我会选择一个而不是另一个呢?更具体地说,当有成熟的MPI实现时,为什么我会选择使用Spread或ØMQ?

api messaging networking distributed cluster-computing

45
推荐指数
2
解决办法
1万
查看次数

群集环境中的单例

将Singleton对象重构为集群环境的最佳策略是什么?

我们使用Singleton从Database中缓存一些自定义信息.它主要是只读的,但在某些特定事件发生时会刷新.

现在我们的应用程序需要部署在集群环境中.根据定义,每个JVM都有自己的Singleton实例.因此,当在单个节点上发生刷新事件并刷新其缓存时,缓存可能在JVM之间不同步.

保持缓存同步的最佳方法是什么?

谢谢.

编辑:缓存主要用于向UI提供自动完成列表(性能原因),我们使用Websphere.所以任何与Websphere相关的技巧都欢迎.

java websphere singleton cluster-computing

43
推荐指数
3
解决办法
4万
查看次数

群集和负载平衡之间的区别?

群集负载平衡有什么区别?

我知道这是一个简单的问题.但我向几个人提出了这个问题,但没有人给出可靠的答案.

我也google了很多,无法得到确切的答案.

希望我们的Stack用户能为我提供最好的答案.

java tomcat web-applications cluster-computing

43
推荐指数
3
解决办法
5万
查看次数

Spark集群上"Locality Level"的含义是什么?

标题"地点级别"和5状态数据本地 - >进程本地 - >节点本地 - >机架本地 - >任何?的含义是什么?

在此输入图像描述

cluster-computing apache-spark

43
推荐指数
2
解决办法
2万
查看次数

Apache Mesos实际上做了什么?

我试图围绕Apache Mesos,并需要澄清一些项目.

Mesos的理解是它是一个可执行文件,安装在集群中的每个物理/ VM服务器(" 节点 ")上,然后提供一个Java API(不知何故)将每个单独的节点视为一个集合的计算资源池( CPU/RAM /等).因此,对于使用Java API编码的程序,它们只能看到一组资源,而不必担心代码的部署方式/位置.

所以对于一个人来说,我在这里的理解可能是根本错误的(在这种情况下,请纠正我!).但是如果我是目标,那么Java API(由Mesos提供)如何允许Java客户端利用这些资源?!?有人可以举一个Mesos的具体例子吗?


更新

看看下面我可怕的图画.如果我正确理解Mesos架构,我们就拥有一个由3个物理服务器组成的集群(phys01,phys02phys03).这些物理中的每一个都在运行Ubuntu主机(或其他).通过虚拟机管理程序,比如Xen,我们可以运行1+个虚拟机.

我对Docker和CoreOS感兴趣,所以我将在这个例子中使用它们,但我猜这同样适用于其他非容器设置.

所以在每个VM上我们都有CoreOS.在每个CoreOS实例上运行的是Mesos可执行文件/服务器.集群中的所有Mesos节点都将其下面的所有内容视为单个资源池,并且可以将工件任意部署到Mesos集群,并且Mesos将确定实际部署它们的CoreOS实例.

运行在Mesos之上的是一个"Mesos框架",如Marathon或Kubernetes.在Kubernetes中运行的是各种Docker容器(C1- C4).

在此输入图像描述

对Mesos的这种理解或多或少是正确的吗?

java virtualization cluster-computing iaas mesos

38
推荐指数
1
解决办法
1万
查看次数

制作目录时出现Python"FileExists"错误

我在集群系统上有几个并行运行的线程.每个python线程输出到一个目录mydir.每个脚本在输出检查之前是否存在mydir,如果不存在则创建它:

if not os.path.isdir(mydir):
    os.makedirs(mydir)
Run Code Online (Sandbox Code Playgroud)

但这会产生错误:

os.makedirs(self.log_dir)                                             
  File "/usr/lib/python2.6/os.py", line 157, in makedirs
mkdir(name,mode)
OSError: [Errno 17] File exists
Run Code Online (Sandbox Code Playgroud)

我怀疑这可能是由于竞争条件,一个工作在另一个工作之前创建了dir.这可能吗?如果是这样,如何避免这种错误?

我不确定这是一个竞争条件,所以想知道Python中的其他问题是否会导致这个奇怪的错误.

python filesystems queue file-io cluster-computing

37
推荐指数
3
解决办法
5万
查看次数

cassandra nosql数据库中的节点,集群和数据中心之间有什么区别?

我正在尝试使用datastax ops center在cassandra nosql数据库中复制学校项目中的数据.根据我的阅读,有三个关键字:集群,节点和数据中心,根据我的理解,节点中的数据可以复制到另一个集群中的另一个节点中.并且包含相同(重复)数据的所有节点组成数据中心.是对的吗?

如果不是,有什么区别?

cluster-computing cassandra nosql opscenter datastax

36
推荐指数
3
解决办法
6万
查看次数

如何为apache spark worker更改每个节点的内存

我正在配置Apache Spark集群.

当我使用1个主服务器和3个从服务器运行集群时,我在主监视器页面上看到了这一点:

Memory
2.0 GB (512.0 MB Used)
2.0 GB (512.0 MB Used)
6.0 GB (512.0 MB Used)
Run Code Online (Sandbox Code Playgroud)

我想为工作人员增加使用的内存,但我找不到合适的配置.我已将spark-env.sh更改为如下:

export SPARK_WORKER_MEMORY=6g
export SPARK_MEM=6g
export SPARK_DAEMON_MEMORY=6g
export SPARK_JAVA_OPTS="-Dspark.executor.memory=6g"
export JAVA_OPTS="-Xms6G -Xmx6G"
Run Code Online (Sandbox Code Playgroud)

但是用过的内存仍然是一样的.我该怎么做才能改变用过的内存?

memory config cluster-computing apache-spark

33
推荐指数
4
解决办法
3万
查看次数

如何修复符号查找错误:群集环境中的未定义符号错误

我正在研究一些python代码,它使用GDAL(http://www.gdal.org/)及其python绑定从ECW文件中提取一些图像数据.GDAL是从源代码构建的,以获得ECW支持.

该程序在我进入的集群服务器上运行.我已经通过ssh终端测试了程序,运行正常.但是,我现在想使用qsub向集群提交作业,但它报告以下内容:

Traceback (most recent call last):
  File "./gdal-test.py", line 5, in <module>
    from osgeo import gdal
  File "/home/h3/ctargett/.local/lib/python2.6/site-packages/GDAL-1.11.1-py2.6-linux-x86_64.egg/osgeo/__init__.py", line 21, in <module>
    _gdal = swig_import_helper()
  File "/home/h3/ctargett/.local/lib/python2.6/site-packages/GDAL-1.11.1-py2.6-linux-x86_64.egg/osgeo/__init__.py", line 17, in swig_import_helper
    _mod = imp.load_module('_gdal', fp, pathname, description)
ImportError: /mnt/aeropix/prgs/.local/lib/libgdal.so.1: undefined symbol: H5Eset_auto2
Run Code Online (Sandbox Code Playgroud)

我做了一些挖掘,并尝试使用LD_DEBUG=symbols尝试找出差异的地方,但这就是我的知识/理解带给我的.

作为参考,这里是LD_DEBUG=symbols在ssh终端中运行和运行代码的事情(通过管道grep H5Eset_auto2来减少一些输出):

在ssh终端中运行的代码的符号调试输出:

 11359: symbol=H5Eset_auto2;  lookup in file=/usr/bin/python26 [0]
 11359: symbol=H5Eset_auto2;  lookup in file=/usr/lib64/libpython2.6.so.1.0 [0]
 11359: symbol=H5Eset_auto2;  lookup in file=/lib64/libpthread.so.0 [0]
 11359: symbol=H5Eset_auto2;  lookup in file=/lib64/libdl.so.2 [0]
 11359: …
Run Code Online (Sandbox Code Playgroud)

linux linker cluster-computing python-2.6 gdal

32
推荐指数
1
解决办法
10万
查看次数