Spark和Hadoop之间是否有任何依赖关系?
如果没有,当我在没有Hadoop的情况下运行Spark时,是否会有任何我想念的功能?
我是Apache Spark的新手,我刚刚了解到Spark支持三种类型的集群:
由于我是Spark的新手,我想我应该首先尝试Standalone.但我想知道哪一个是推荐的.说,将来我需要构建一个大型集群(数百个实例),我应该去哪个集群类型?
Marathon和Aurora都是基于Mesos构建的,据称可以运行长期运行的服务.我的问题是:
谢谢!
我试图围绕Apache Mesos,并需要澄清一些项目.
我对 Mesos的理解是它是一个可执行文件,安装在集群中的每个物理/ VM服务器(" 节点 ")上,然后提供一个Java API(不知何故)将每个单独的节点视为一个集合的计算资源池( CPU/RAM /等).因此,对于使用Java API编码的程序,它们只能看到一组资源,而不必担心代码的部署方式/位置.
所以对于一个人来说,我在这里的理解可能是根本错误的(在这种情况下,请纠正我!).但是如果我是目标,那么Java API(由Mesos提供)如何允许Java客户端利用这些资源?!?有人可以举一个Mesos的具体例子吗?
看看下面我可怕的图画.如果我正确理解Mesos架构,我们就拥有一个由3个物理服务器组成的集群(phys01,phys02和phys03).这些物理中的每一个都在运行Ubuntu主机(或其他).通过虚拟机管理程序,比如Xen,我们可以运行1+个虚拟机.
我对Docker和CoreOS感兴趣,所以我将在这个例子中使用它们,但我猜这同样适用于其他非容器设置.
所以在每个VM上我们都有CoreOS.在每个CoreOS实例上运行的是Mesos可执行文件/服务器.集群中的所有Mesos节点都将其下面的所有内容视为单个资源池,并且可以将工件任意部署到Mesos集群,并且Mesos将确定实际部署它们的CoreOS实例.
运行在Mesos之上的是一个"Mesos框架",如Marathon或Kubernetes.在Kubernetes中运行的是各种Docker容器(C1- C4).

对Mesos的这种理解或多或少是正确的吗?
最近我发现了像Apache Mesos这样的东西.
在所有演示和示例中,这一切看起来都令人惊讶.我可以很容易想象一个人如何竞选无国籍的工作 - 这自然适合整个想法.
Bot如何处理有状态的长期工作?
说,我有一个由N台机器组成的集群(通过Marathon安排).我想在那里运行一个postgresql服务器.
就是这样 - 起初我甚至不希望它具有高可用性,而只是一个托管postgresql服务器的单个作业(实际上是Dockerized).
1-如何组织它?将服务器约束到特定的群集节点?使用一些分布式FS?
2- DRBD,MooseFS,GlusterFS,NFS,CephFS,其中一个与Mesos和postgres等服务配合良好?(我在这里想到Mesos /马拉松可能会重新定位服务,如果下降)
3-请说明我的方法在哲学方面是否错误(数据服务器的DFS和Mesos顶部的postgres等服务器的某种切换)
问题很大程度上是从Apache Mesos的持久存储中复制的,zerkms在Programmers Stack Exchange上提出了这个问题.
当我在Ubuntu12.04上部署Apache Mesos时,我按照官方文档,在步骤"make -j 8"中我在控制台中收到此错误:
g++: internal compiler error: Killed (program cc1plus)
Please submit a full bug report,
with preprocessed source if appropriate.
See <file:///usr/share/doc/gcc-4.9/README.Bugs> for instructions.
make[2]: *** [slave/containerizer/mesos/libmesos_no_3rdparty_la-containerizer.lo] Error 1
make[2]: *** Waiting for unfinished jobs....
mv -f log/.deps/liblog_la-log.Tpo log/.deps/liblog_la-log.Plo
mv -f slave/containerizer/.deps/libmesos_no_3rdparty_la-docker.Tpo slave/containerizer/.deps/libmesos_no_3rdparty_la-docker.Plo
mv -f log/.deps/liblog_la-consensus.Tpo log/.deps/liblog_la-consensus.Plo
mv -f slave/containerizer/.deps/libmesos_no_3rdparty_la-external_containerizer.Tpo slave/containerizer/.deps/libmesos_no_3rdparty_la-external_containerizer.Plo
mv -f log/.deps/liblog_la-coordinator.Tpo log/.deps/liblog_la-coordinator.Plo
mv -f slave/.deps/libmesos_no_3rdparty_la-slave.Tpo slave/.deps/libmesos_no_3rdparty_la-slave.Plo
mv -f master/.deps/libmesos_no_3rdparty_la-master.Tpo master/.deps/libmesos_no_3rdparty_la-master.Plo
make[2]: Leaving directory `/root/Mesos/mesos/build/src'
make[1]: *** [all] Error 2
make[1]: Leaving directory `/root/Mesos/mesos/build/src'
make: *** …Run Code Online (Sandbox Code Playgroud) 我试图了解Mesos的各个组件如何协同工作,并找到了包含以下架构概述的优秀教程:

我对此有一些担忧尚未明确(无论是在文章中还是在官方的Mesos文档中):
在我看来,Apache Mesos是一个分布式系统内核,Mesosphere是基于Apache Mesos的Linux发行版.
例如,它像Linux Kernel(Apache Mesos)和Ubuntu(Mesosphere).
我这是对的吗?
和DCOS是免费版的Mesosphere,如RedHat vs RedHat Enterprise?
到目前为止,我已经取得了巨大的成功,使用Mesos,Marathon和Docker来管理一系列服务器以及我正在放置的容器.但是,我现在想更进一步,开始做一些事情,比如自动将haproxy容器链接到每个启动的主要docker服务,或者提供其他基于守护进程和容器化的服务,这些服务是链接的,只能用于单个父容器.
通常情况下,我首先使用某个名称启动帮助程序服务,然后当我启动真正的服务时,我会将其链接到帮助程序,一切都会好的.这个模型如何适应Marathon和Mesos?至少现在看来,集装箱化是一个单一的集装箱.
我有一个想法,首先启动帮助程序服务,在它可以找到的任何主机上,然后向hostname =帮助程序服务的主机名的实际服务添加约束,但这似乎会导致资源提供和竞争条件的问题那些资源.
我还想过为docker或启动docker容器的执行程序脚本提供"嵌入"或"深层链接"功能.
在我走下任何这些路径之前,我想知道是否有其他人已经解决了这个问题,或者我是否只是在思考问题.
谢谢!
我正在尝试将Mesos奴隶连接到它的主人.当从属设备尝试连接到主设备时,我收到以下消息:
I0806 16:39:59.090845 935 hierarchical.hpp:528] Added slave 20150806-163941-1027506442-5050-921-S3 (debian) with cpus(*):1; mem(*):1938; disk(*):3777; ports(*):[31000-32000] (allocated: )
E0806 16:39:59.091384 940 socket.hpp:107] Shutdown failed on fd=25: Transport endpoint is not connected [107]
I0806 16:39:59.091508 940 master.cpp:3395] Registered slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian) with cpus(*):1; mem(*):1938; disk(*):3777; ports(*):[31000-32000]
I0806 16:39:59.091747 940 master.cpp:1006] Slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian) disconnected
I0806 16:39:59.091868 940 master.cpp:2203] Disconnecting slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian)
I0806 16:39:59.092031 940 master.cpp:2222] Deactivating slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian)
I0806 16:39:59.092248 939 hierarchical.hpp:621] Slave …Run Code Online (Sandbox Code Playgroud) mesos ×10
linux ×3
marathon ×3
mesosphere ×3
apache-spark ×2
amazon-s3 ×1
aurora ×1
dcos ×1
debian ×1
docker ×1
g++ ×1
gcc ×1
hadoop ×1
hadoop-yarn ×1
iaas ×1
java ×1
mapreduce ×1
postgresql ×1
ubuntu ×1
virtualbox ×1