Spark 集群和 YARN 上的 Apache Zeppelin 运行

Apache Zeppelin running on Spark Cluster and YARN

我已经在带有纱线客户端的 Spark 集群上 运行 在 Apache Zeppelin 运行 中创建了 运行 一个 %pyspark 程序。该程序正在从 HDFS 读取 Dataframe 中的文件,并执行一个简单的 groupby 命令并成功打印输出。我正在使用 Zeppellin 版本 0.6.2 和 Spark 2.0.0。

我可以在 YARN 中看到作业 运行(参见 application_1480590511892_0007):

但是当我同时检查 Spark UI 时,这个工作什么也没有:

问题1:这个职位不应该出现在这两个windows中吗?

此外,刚刚在上面的 SparkUI 图像中完成的应用程序是带有 %python 解释器的 Zeppelin 作业,只需初始化 SparkSession 并停止它:

第一个齐柏林飞艇街区:

%python
from pyspark.sql import SparkSession
from pyspark.sql import Row
import collections

spark = SparkSession.builder.appName("SparkSQL").getOrCreate()

第 2 个齐柏林飞艇街区:

 %python
 spark.stop()

问题2:这个job反过来,还没有出现在YARN中UI。是不是只要SparkUI中出现job就代表是运行Spark Resource manager?

非常感谢对这些问题的任何见解。

Zeppelin 运行一旦第一次使用解释器,它就是一个连续的 Spark 应用程序。在这个应用程序中,所有段落都将 运行。在您的第二段中,您将停止 SparkSession (spark.stop),这样会终止在首次使用解释器时创建的应用程序。因此,您只能在“已完成的申请”部分下看到工作。如果删除 spark.stop,您应该会在 运行 应用程序下看到作业。