问题运行 spark-submit 打开一个 SparkContext

Question

首先我描述一下我的场景。 Ubuntu 14.04 火花 1.6.3 Python3.5

我正在尝试通过 spark-submit 执行我的 python 脚本。我需要创建一个上下文，然后也应用 SQLContext。

主要是我在我的 pyspark 控制台中测试了一个非常简单的案例：

然后我正在创建 python 脚本。

from pyspark import SparkConf, SparkContext

conf = (SparkConf()
         .setMaster("local")
         .setAppName("My app")
         .set("spark.executor.memory", "1g"))
sc = SparkContext(conf = conf)

numbers = [1,2,3,4,5,6]

numbersRDD = sc.parallelize(numbers)
numbersRDD.take(2)

但是，当我在我的 submit-spark 中运行它不会 thru.I 永远不会得到结果:(

Answer 1

您没有理由得到 "results"。除了标准的 Spark 日志记录（在输出中可见）之外，您的脚本不会执行任何明显的副作用（打印到 stdout、写入文件）。 numbersRDD.take(2) 会执行得很好。

如果你想获得某种形式的输出print:

print(numbersRDD.take(2))

您还应该在退出前停止上下文：

sc.stop()

问题运行 spark-submit 打开一个 SparkContext

Issues running spark-submit opening a SparkContext

python

apache-spark

pyspark

pyspark-sql

问题 运行 spark-submit 打开一个 SparkContext

Issues running spark-submit opening a SparkContext

python

apache-spark

pyspark

pyspark-sql

问题运行 spark-submit 打开一个 SparkContext