运行 zeppelin on spark 集群模式

Running zeppelin on spark cluster mode

我正在使用本教程 spark cluster on yarn mode in docker container 以 yarn 模式在 spark 集群中启动 zeppelin。但是我卡在了第 4 步。我无法在我的 docker 容器中找到 conf/zeppelin-env.sh 来进行进一步的配置。我尝试将这些 conf 文件夹放入 zeppelin,但现在成功了。除此之外,zeppelin notebook 也不在 运行 on localhost:9001 上。

我是分布式系统的新手,如果有人能帮我在 spark 集群上以 yarn 模式启动 zeppelin 就好了。

这是我的 docker-compose 文件,用于启用 zeppelin 与 spark 集群的对话。

version: '2'
services:
sparkmaster:
  build: .
  container_name: sparkmaster
ports:
  - "8080:8080"
  - "7077:7077" 
  - "8888:8888"
  - "8081:8081"
  - "8082:8082"
  - "5050:5050"
  - "5051:5051"
  - "4040:4040"
zeppelin:
  image: dylanmei/zeppelin
  container_name: zeppelin-notebook
env_file:
  - ./hadoop.env
environment:
  ZEPPELIN_PORT: 9001
  CORE_CONF_fs_defaultFS: "hdfs://namenode:8020"
  HADOOP_CONF_DIR_fs_defaultFS: "hdfs://namenode:8020"
  SPARK_MASTER: "spark://spark-master:7077"
  MASTER: "yarn-client"
  SPARK_HOME: spark-master
  ZEPPELIN_JAVA_OPTS: >-
    -Dspark.driver.memory=1g
    -Dspark.executor.memory=2g
ports:
  - 9001:9001
volumes:
  - ./data:/usr/zeppelin/data
  - ./notebooks:/usr/zeppelin/notebook

这是您用于启动独立 spark 集群的 dockerfile。

但是容器内没有Zeppelin实例,所以你必须在本地机器上使用Zeppelin。

download并使用它。