如何使用 Spark Structured Streaming 逐块处理文件？

Question

我正在处理大量文件，我想逐块处理这些文件，假设在每批处理中，我想分别处理每 50 个文件。

如何使用 Spark Structured Streaming 来实现？

我看到 Jacek Laskowski (https://whosebug.com/users/1305344/jacek-laskowski) said in a similar question (Spark to process rdd chunk by chunk from json files and post to Kafka topic) 说可以使用 Spark Structured Streaming，但我找不到任何相关示例。

非常感谢，

Answer 1

如果使用文件源：

maxFilesPerTrigger：每个触发器中要考虑的最大新文件数（默认值：无最大值）

spark
  .readStream
  .format("json")
  .path("/path/to/files")
  .option("maxFilesPerTrigger", 50)
  .load

如果使用 Kafka 源，它会类似，但带有 maxOffsetsPerTrigger 选项。

如何使用 Spark Structured Streaming 逐块处理文件？

How to process files using Spark Structured Streaming chunk by chunk?

scala

apache-spark

spark-structured-streaming