基于Salt的Spark集群安装快速指南

Edm*_*mon 5 hdfs salt-stack apache-spark

我试过在官方Salt用户论坛上问这个,但由于某种原因我没有得到任何帮助.我希望我能在这里得到帮助.

我是Salt的新用户.我仍然在评估框架作为我们SCM工具的候选者(而不是Ansible).

我完成了本教程,并且能够成功地管理本教程前半部分所涵盖的master-minion/s关系.

教程现在分为许多不同的复杂领域.

我需要的是相对直接的,所以我希望也许有人可以在这里指导我如何实现它.

我希望在20台RHEL 7机器上安装Spark和HDFS(比如在168.192.10.0-20范围内,0是名称节点).

我知道了:

https://github.com/saltstack-formulas/hadoop-formula

我找到了第三方Spark公式:

https://github.com/beauzeaux/spark-formula

有人能够以最直接的方式提出一套关于如何进行此安装的说明吗？

免责声明:此答案仅描述了您需要做的粗略过程.我从相应的文档章节中提取了它,并添加了参考资料.我假设您熟悉Salt(状态和支柱等等)的基本工作方式以及Hadoop(我不是).

1.配置GitFS

安装Salt公式的典型方法是使用GitFS.有关详细文档,请参阅Salt手册中的相应章节.

这需要在Salt主节点上完成.

在主配置文件中启用GitFS(通常/etc/salt/master或单独的文件/etc/salt/master.d):
```
fileserver_backend:
  - git
```
Run Code Online (Sandbox Code Playgroud)
添加您需要的两个Salt公式作为遥控器(相同的文件).这也包含在文档中:
```
gitfs_remotes:
  - https://github.com/saltstack-formulas/hadoop-formula.git
  - https://github.com/beauzeaux/spark-formula
```
Run Code Online (Sandbox Code Playgroud)
(可选):请注意公式文档中的以下警告:

我们强烈建议将公式存储库分配到您自己的GitHub帐户,以避免对您的基础架构进行意外更改.

许多盐配方都是高度活跃的存储库,所以要小心谨慎地进行新的更改.此外,您对叉子的任何添加都可以通过快速拉动请求轻松地向上游发送!

将公式分成您自己的Git存储库(使用GitHub或其他方式),并将您的私有Git URL用作远程,以防止对您的配置进行意外更改.
重启Salt master.

2.安装Hadoop

这在Formulas README文件中有详细记录.从粗略的阅读中,公式可以建立Hadoop主人和奴隶; 这个角色是用盐粒决定的.

在文件中配置Hadoop角色/etc/salt/grains.这需要在每个 Salt minion节点上完成(使用hadoop_master和hadoop_slave适当):
```
roles:
  - hadoop_master
```
Run Code Online (Sandbox Code Playgroud)
在Salt minion上配置Salt mine(通常/etc/salt/minion或单独的文件/etc/salt/minion.d):
```
mine_functions:
  network.interfaces: []
  network.ip_addrs: []
  grains.items: []
```
Run Code Online (Sandbox Code Playgroud)
看看其他配置颗粒,并根据需要设置它们.
添加所需的支柱数据以配置Hadoop设置.为此,我们回到Salt主节点(为此,我假设您熟悉状态和支柱; 否则请参阅手册或本演练).查看可能的配置选项的示例支柱.
使用hadoop和中的hadoop.hdfs状态top.sls:
```
'your-hadoop-hostname*':
  - hadoop
  - hadoop.hdfs
```
Run Code Online (Sandbox Code Playgroud)

3.安装Spark

根据公式的自述文件,没有什么可以通过谷物或支柱配置,所以剩下的就是使用spark你的状态top.sls:
```
'your-hadoop-hostname*':
  - hadoop
  - hadoop.hdfs
  - spark
```
Run Code Online (Sandbox Code Playgroud)

火!

应用所有州:

salt 'your-hadoop-hostname*' state.highstate

Run Code Online (Sandbox Code Playgroud)

归档时间：	9 年，10 月前
查看次数：	1052 次
最近记录：	9 年，10 月前

如何在Spark SQL中控制分区大小 22

spark.ml StringIndexer在fit()上抛出'看不见的标签' 9

Apache Spark-工人的连接被拒绝 7

将Zeppelin引用到Spark Master（在Docker容器中） 6

使用模式将ConsumerRecord值转换为spark-kafka中的Dataframe 5

升级火花时的镶木地板压缩退化 5

为什么Spark Standalone集群不使用所有可用内核？ 4

等待文件出现的Saltstack 3

如何让 HBase 等待 HDFS 准备好后再启动？ 1

Apache Spark 中describe() 和summary() 的区别 1

如何在Java中生成特定范围内的随机整数？ 3373

如何制作一个很好的R可重复的例子 2474

什么时候应该使用static_cast,dynamic_cast,const_cast和reinterpret_cast？ 2367

如何使用Maven创建具有依赖关系的可执行JAR？ 2276

如何检查变量是否是JavaScript中的数组？ 1713

对于数组,为什么a [5] == 5 [a]？ 1567

我怎样才能找到带有Mathematica的Waldo？ 1538

const和readonly有什么区别？ 1269

为什么我们需要C++中的虚函数？ 1223

HTML中"role"属性的目的是什么？ 1122