在 Spark Streaming 中处理太晚的数据
Handle Too Late data in Spark Streaming
Watermark 允许使用 windows 在一段时间内考虑将迟到的数据包含在已经计算的结果中。它的前提是它跟踪到一个时间点,在此之前假设没有更多的迟到事件应该到达,但如果它们到达,它们是 none-the-less discarded
.
有没有办法存储丢弃的数据,以后可以用于对帐目的?
说在我的结构化流媒体中,我将水印设置为 1 小时。
我每 10 分钟进行一次 window 操作,并在 20 分钟后收到一个稍后的事件。
有没有一种方法可以将丢弃的数据存储在不同的位置而不是丢弃它?
不行,这方面没有办法实现。
Watermark 允许使用 windows 在一段时间内考虑将迟到的数据包含在已经计算的结果中。它的前提是它跟踪到一个时间点,在此之前假设没有更多的迟到事件应该到达,但如果它们到达,它们是 none-the-less discarded
.
有没有办法存储丢弃的数据,以后可以用于对帐目的? 说在我的结构化流媒体中,我将水印设置为 1 小时。 我每 10 分钟进行一次 window 操作,并在 20 分钟后收到一个稍后的事件。 有没有一种方法可以将丢弃的数据存储在不同的位置而不是丢弃它?
不行,这方面没有办法实现。