如何加载 Spark Streaming 应用程序 运行?
How a Spark Streaming application be loaded and run?
嗨,我是 spark 和 spark streaming 的新手。
从官方文档我可以理解如何操作输入数据并保存它们。
问题是 Spark Streaming 的快速示例quick example让我感到困惑
我知道这项工作应该从您设置的 DStream 中获取数据并对它们做一些事情,但是因为它 运行ning 24/7。如何加载应用程序 运行?
是每n秒运行还是一开始就运行一次然后进入[read-process-loop]的循环?
顺便说一句,我正在使用 python,所以我检查了那个例子的 python 代码,如果是后一种情况,spark 的执行者如何知道循环部分是哪个代码片段?
Spark Streaming其实就是一个微批处理。这意味着您可以自定义的每个间隔都会执行一个新的批处理。
看看你提到的例子的编码
sc = SparkContext("local[2]", "NetworkWordCount")
ssc = StreamingContext(sc,1)
您定义了一个流上下文,其中 micro-batch 间隔为 1 秒。
也就是后续的编码,使用了streaming context
lines = ssc.socketTextStream("localhost", 9999)
...
每秒执行一次。
流式传输过程最初由这一行触发
ssc.start() # Start the computation
嗨,我是 spark 和 spark streaming 的新手。 从官方文档我可以理解如何操作输入数据并保存它们。
问题是 Spark Streaming 的快速示例quick example让我感到困惑
我知道这项工作应该从您设置的 DStream 中获取数据并对它们做一些事情,但是因为它 运行ning 24/7。如何加载应用程序 运行?
是每n秒运行还是一开始就运行一次然后进入[read-process-loop]的循环?
顺便说一句,我正在使用 python,所以我检查了那个例子的 python 代码,如果是后一种情况,spark 的执行者如何知道循环部分是哪个代码片段?
Spark Streaming其实就是一个微批处理。这意味着您可以自定义的每个间隔都会执行一个新的批处理。
看看你提到的例子的编码
sc = SparkContext("local[2]", "NetworkWordCount")
ssc = StreamingContext(sc,1)
您定义了一个流上下文,其中 micro-batch 间隔为 1 秒。
也就是后续的编码,使用了streaming context
lines = ssc.socketTextStream("localhost", 9999)
...
每秒执行一次。
流式传输过程最初由这一行触发
ssc.start() # Start the computation