基于 Salt 安装 Spark 集群的快速指南

Question

我试着在官方 Salt 用户论坛上询问这个问题，但出于某种原因，我在那里没有得到任何帮助。我希望我能在这里得到帮助。

我是 Salt 的新用户。我仍在评估该框架作为我们的 SCM 工具的候选者（而不是 Ansible）。

我完成了教程，并且能够成功管理教程前半部分所述的 master-minion/s 关系。

教程现在分叉到许多不同的、复杂的领域。

我需要的东西比较简单，所以我希望有人能在这里指导我如何完成它。

我希望在 20 台 RHEL 7 机器上安装 Spark 和 HDFS（比方说在 168.192.10.0-20 范围内，0 是名称节点）。

我明白了：

https://github.com/saltstack-formulas/hadoop-formula

我找到了第三方 Spark 公式：

https://github.com/beauzeaux/spark-formula

有人可以就如何以最直接的方式进行安装提出一组说明吗？

Answer 1

免责声明：本回答仅描述了您需要做的事情的大致过程。我已经从相应的文档章节中提炼出来并添加了参考资料。我假设您熟悉 Salt 的基本工作原理（状态和支柱等等）以及 Hadoop（我不是）。

1。配置GitFS

安装 Salt 公式的典型方法是使用 GitFS。请参阅 respective chapter from the Salt manual 以获得深入的文档。

这需要在您的 Salt 主节点上完成。

在主配置文件中启用GitFS（通常/etc/salt/master，或/etc/salt/master.d中的单独文件）：
```
fileserver_backend:
  - git
```

将您需要的两个 Salt 公式添加为远程（同一文件）。这是 also covered in the documentation:

gitfs_remotes:
  - https://github.com/saltstack-formulas/hadoop-formula.git
  - https://github.com/beauzeaux/spark-formula

（可选）：请注意来自 Formula documentation 的以下警告：

We strongly recommend forking a formula repository into your own GitHub account to avoid unexpected changes to your infrastructure.

Many Salt Formulas are highly active repositories so pull new changes with care. Plus any additions you make to your fork can be easily sent back upstream with a quick pull request!

将公式分叉到您自己的 Git 存储库（使用 GitHub 或其他方式）并使用您的私人 Git URL 作为远程以防止意外更改根据您的配置。
重启 Salt master。

2。安装 Hadoop

Formulas README file 对此进行了深入记录。粗略看一下，公式可以同时设置Hadoop masters和slaves；该角色是使用 Salt grain 确定的。

在文件 /etc/salt/grains 中配置 Hadoop 角色。这需要在每个 Salt minion 节点上完成（适当使用hadoop_master 和hadoop_slave）：

roles: - hadoop_master

在您的 Salt minion 上配置 Salt mine（通常是 /etc/salt/minion 或 /etc/salt/minion.d 中的单独文件）：

mine_functions: network.interfaces: [] network.ip_addrs: [] grains.items: []

查看 additional configuration grains 并根据需要进行设置。

添加配置 Hadoop 设置所需的支柱数据。 为此，我们回到了 Salt 主节点（为此，我假设您熟悉状态和支柱；请参阅 manual or this walkthrough otherwise). Have a look at the example pillar 了解可能的配置选项。

在 top.sls:
中使用 hadoop 和 hadoop.hdfs 状态
'your-hadoop-hostname*': - hadoop - hadoop.hdfs

3。安装 Spark

根据公式的自述文件，没有什么可以通过谷物或支柱进行配置，所以剩下的就是在 top.sls 中使用 spark 状态：

'your-hadoop-hostname*': - hadoop - hadoop.hdfs - spark

4。着火了！

应用所有状态：

salt 'your-hadoop-hostname*' state.highstate

基于 Salt 安装 Spark 集群的快速指南

A quick guide on Salt-based install of Spark cluster

hdfs

salt-stack

apache-spark

1。配置GitFS

2。安装 Hadoop

3。安装 Spark

4。着火了！