我是Spark的新手,我想问一些关于开发和测试Apache Spark框架代码的常用指南
在本地测试我的代码最常用的设置是什么?是否有任何内置虚拟机(准备好的盒子等)?我必须设置本地火花吗?有没有测试我的代码的测试库?
进入群集模式时,我注意到有一些方法可以设置群集; 生产方面,设置集群运行Spark的最常用方法是什么?这里有三个选择
谢谢
1)常见设置:只需在本地计算机上下载Spark版本即可.解压缩并按照以下步骤在本地进行设置.
2)启动集群进行生产:此处 提供的Spark集群模式概述说明了运行Spark集群时的关键概念.Spark既可以独立方式运行,也可以在多个现有集群管理器上运行.目前,有几种部署选项可用:
亚马逊EC2
独立模式
Apache Mesos
Hadoop YARN
EC2脚本允许您在大约5分钟内启动集群.事实上,如果您使用的是EC2,最好的方法是使用spark提供的脚本.独立模式最适合在专用群集上部署Spark.
通常情况下,我们使用纱作为集群管理器,当我们有一个现有的Hadoop设置与纱线,同样也适用于Mesos.相反,如果您正在创建一个新的集群,我建议使用独立模式,考虑到您没有使用亚马逊的EC2实例.此链接显示了一些有助于安排独立Spark群集的步骤.
| 归档时间: |
|
| 查看次数: |
2493 次 |
| 最近记录: |