如何加载 Spark Streaming 应用程序 运行?

How a Spark Streaming application be loaded and run?

嗨,我是 spark 和 spark streaming 的新手。 从官方文档我可以理解如何操作输入数据并保存它们。

问题是 Spark Streaming 的快速示例quick example让我感到困惑

我知道这项工作应该从您设置的 DStream 中获取数据并对它们做一些事情,但是因为它 运行ning 24/7。如何加载应用程序 运行?

是每n秒运行还是一开始就运行一次然后进入[read-process-loop]的循环?

顺便说一句,我正在使用 python,所以我检查了那个例子的 python 代码,如果是后一种情况,spark 的执行者如何知道循环部分是哪个代码片段?

Spark Streaming其实就是一个微批处理。这意味着您可以自定义的每个间隔都会执行一个新的批处理。

看看你提到的例子的编码

sc = SparkContext("local[2]", "NetworkWordCount")
ssc = StreamingContext(sc,1)

您定义了一个流上下文,其中 micro-batch 间隔为 1 秒。

也就是后续的编码,使用了streaming context

lines = ssc.socketTextStream("localhost", 9999)
...

每秒执行一次。

流式传输过程最初由这一行触发

ssc.start()             # Start the computation