如何加载 Spark Streaming 应用程序运行？

Question

嗨，我是 spark 和 spark streaming 的新手。从官方文档我可以理解如何操作输入数据并保存它们。

问题是 Spark Streaming 的快速示例quick example让我感到困惑

我知道这项工作应该从您设置的 DStream 中获取数据并对它们做一些事情，但是因为它运行ning 24/7。如何加载应用程序运行?

是每n秒运行还是一开始就运行一次然后进入[read-process-loop]的循环？

顺便说一句，我正在使用 python，所以我检查了那个例子的 python 代码，如果是后一种情况，spark 的执行者如何知道循环部分是哪个代码片段？

Answer 1

Spark Streaming其实就是一个微批处理。这意味着您可以自定义的每个间隔都会执行一个新的批处理。

看看你提到的例子的编码

sc = SparkContext("local[2]", "NetworkWordCount")
ssc = StreamingContext(sc,1)

您定义了一个流上下文，其中 micro-batch 间隔为 1 秒。

也就是后续的编码，使用了streaming context

lines = ssc.socketTextStream("localhost", 9999)
...

每秒执行一次。

流式传输过程最初由这一行触发

ssc.start()             # Start the computation

How a Spark Streaming application be loaded and run?