如何使用 Spark Structured Streaming 逐块处理文件?

How to process files using Spark Structured Streaming chunk by chunk?

我正在处理大量文件,我想逐块处理这些文件,假设在每批处理中,我想分别处理每 50 个文件。

如何使用 Spark Structured Streaming 来实现?

我看到 Jacek Laskowski (https://whosebug.com/users/1305344/jacek-laskowski) said in a similar question (Spark to process rdd chunk by chunk from json files and post to Kafka topic) 说可以使用 Spark Structured Streaming,但我找不到任何相关示例。

非常感谢,

如果使用文件源:

maxFilesPerTrigger:每个触发器中要考虑的最大新文件数(默认值:无最大值)

spark
  .readStream
  .format("json")
  .path("/path/to/files")
  .option("maxFilesPerTrigger", 50)
  .load

如果使用 Kafka 源,它会类似,但带有 maxOffsetsPerTrigger 选项。