维护传入流数据的时间戳序列
Maintaining timestamp sequence of incoming streaming data
所以我使用结构化流将一些 json 数据从 kafka 推送到 Spark。字典形式的数据有一个字段"timestamp"。在解析 json 并为每个键获取单独的列后,我注意到时间戳字段不在它被推送到 kafka 集群的顺序中,即
+----------+
| Timestamp|
+----------+
| 1 |
| 2 |
| 6 | <--
| 4 |
| 5 |
| 7 | <--
+----------+
有什么方法可以确保数据保持顺序?我能想到的一件事是在 output_mode="complete" 的时间戳上使用 orderby。还有其他有效的选择吗?
谢谢
所以我使用结构化流将一些 json 数据从 kafka 推送到 Spark。字典形式的数据有一个字段"timestamp"。在解析 json 并为每个键获取单独的列后,我注意到时间戳字段不在它被推送到 kafka 集群的顺序中,即
+----------+
| Timestamp|
+----------+
| 1 |
| 2 |
| 6 | <--
| 4 |
| 5 |
| 7 | <--
+----------+
有什么方法可以确保数据保持顺序?我能想到的一件事是在 output_mode="complete" 的时间戳上使用 orderby。还有其他有效的选择吗? 谢谢