Dav*_* S. 70 hadoop-yarn mesos apache-spark apache-spark-standalone
我是Apache Spark的新手,我刚刚了解到Spark支持三种类型的集群:
由于我是Spark的新手,我想我应该首先尝试Standalone.但我想知道哪一个是推荐的.说,将来我需要构建一个大型集群(数百个实例),我应该去哪个集群类型?
Jus*_*ony 69
我认为最好回答的是那些使用Spark的人.所以,来自Learning Spark
如果这是新部署,请从独立群集开始.独立模式是最容易设置的,如果您只运行Spark,它将提供与其他集群管理器几乎所有相同的功能.
如果您希望将Spark与其他应用程序一起运行,或者使用更丰富的资源调度功能(例如队列),YARN和Mesos都会提供这些功能.其中,YARN可能会预装在许多Hadoop发行版中.
与YARN和独立模式相比,Mesos的一个优点是其细粒度的共享选项,它允许诸如Spark shell之类的交互式应用程序缩减命令之间的CPU分配.这使得它在多个用户运行交互式shell的环境中具有吸引力.
在所有情况下,最好在与HDFS相同的节点上运行Spark,以便快速访问存储.您可以手动在同一节点上安装Mesos或独立集群管理器,或者大多数Hadoop发行版已经将YARN和HDFS安装在一起.
Rav*_*abu 65
Spark Standalone Manager:Spark附带的简单集群管理器,可以轻松设置集群.默认情况下,每个应用程序都使用群集中的所有可用节点.
YARN优于Standalone和Mesos的一些好处:
YARN允许您在YARN上运行的所有框架之间动态共享和集中配置相同的群集资源池.
您可以利用YARN调度程序的所有功能来分类,隔离和确定工作负载的优先级.
的火花独立模式要求每个应用程序运行在集群中的每个节点上的执行器; 而使用YARN,您可以选择要使用的执行程序数
YARN直接处理您的请求中的机架和机器位置,这很方便.
奇怪地,资源请求模型在Mesos中是向后的.在YARN中,您(框架)请求具有给定规范的容器并给出位置首选项.在Mesos中,您可以获得资源"优惠",并根据您自己的调度策略选择接受或拒绝这些资源.Mesos模型可以说更灵活,但对于实现框架的人来说似乎更多的工作.
如果您已经拥有一个大的Hadoop集群,那么YARN是更好的选择.
该独立的管理者需要用户配置每个节点与共享的秘密.Mesos的默认验证模块Cyrus SASL可以替换为自定义模块.YARN具有身份验证,服务级别授权,Web控制台身份验证和数据机密性的安全性.Hadoop身份验证使用Kerberos验证Kerberos是否对每个用户和服务进行了身份验证.
有用的链接:
spark文档页面
agildata文章
Standalone非常清楚,因为其他人提到它应该仅在你只有spark工作负载时使用.
在纱线和介子之间,有一点需要考虑的事实是,与mapreduce不同,spark job会抓取执行程序并在整个生命周期中保留它.mapreduce中的工作可以在一生中获得并释放映射器和缩减器.
如果您有长时间运行的火花作业,这些作业在作业生命周期内没有充分利用它开始时获得的所有资源,您可能希望将这些资源共享给其他应用程序,并且您只能通过Mesos或Spark动态调度.https://spark.apache.org/docs/2.0.2/job-scheduling.html#scheduling-across-applications 所以对于yarn,只有通过使用spark提供的动态分配才能动态分配spark.当Mesos会这样时,纱线不会干涉.如果你有一个长时间运行的火花应用程序并且你想动态地上下调整它,那么这一点再次重要.
归档时间: |
|
查看次数: |
31734 次 |
最近记录: |