使用 Spark Structured Streaming 水印处理延迟事件?

Handling late events with Spark Structured Streaming watermark?

在我的结构化流媒体中,我将水印设置为 1 小时。

我每 10 分钟做一次 window 手术。

我晚了 20 分钟收到了一个稍后的事件。

会不会计算对应的window?

Watermark 允许考虑将迟到的数据包含在 一段时间 的已计算结果中,使用 windows .它的前提是它跟踪到一个时间点,在此之前假设没有更多的迟到事件应该到达,但如果它们到达,它们将被 none-the-less 丢弃。有多种操作模式。

https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#window-operations-on-event-time 上的优秀示例,附有漂亮的图表作为补充。

您的问题:是的,您引用的示例将包括延迟数据,正如您在 1 小时的 window 内所描述的那样。