如何 运行 对静态数据集进行流式查询?
How to run a streaming query over a static dataset?
当我将结构化流应用到静态数据集时,火花引擎将获取静态数据集的全部数据。在这种情况下,使用流来处理静态数据集的意义是什么?
我期望的是structured streaming能够一次得到整个数据集的一部分,然后我在这部分数据集上计算,直到遍历整个数据集。否则,使用structured streaming和sparkSQL处理静态数据集是完全一样的
我们对静态数据集使用结构化流的原因是静态数据集可能很大。我们想使用结构化流来避免静态数据集上的数据一下子加载到内存中(这样内存压力很大)。这是否违背了流处理的思想?
使用structured streaming和sparkSQL处理静态数据集有什么区别?
the static dataset can be large.
这正是 Spark 可以提供帮助的原因。但这并不是说它必须是结构化流媒体。这是 Spark SQL.
的完美用例
to prevent the data on the static dataset from being loaded into memory all at once
这又是 Spark 的原因,又与 Structured Streaming 无关。
当我将结构化流应用到静态数据集时,火花引擎将获取静态数据集的全部数据。在这种情况下,使用流来处理静态数据集的意义是什么?
我期望的是structured streaming能够一次得到整个数据集的一部分,然后我在这部分数据集上计算,直到遍历整个数据集。否则,使用structured streaming和sparkSQL处理静态数据集是完全一样的
我们对静态数据集使用结构化流的原因是静态数据集可能很大。我们想使用结构化流来避免静态数据集上的数据一下子加载到内存中(这样内存压力很大)。这是否违背了流处理的思想?
使用structured streaming和sparkSQL处理静态数据集有什么区别?
the static dataset can be large.
这正是 Spark 可以提供帮助的原因。但这并不是说它必须是结构化流媒体。这是 Spark SQL.
的完美用例to prevent the data on the static dataset from being loaded into memory all at once
这又是 Spark 的原因,又与 Structured Streaming 无关。