如何使用 Spark Structured Streaming 逐块处理文件?
How to process files using Spark Structured Streaming chunk by chunk?
我正在处理大量文件,我想逐块处理这些文件,假设在每批处理中,我想分别处理每 50 个文件。
如何使用 Spark Structured Streaming 来实现?
我看到 Jacek Laskowski (https://whosebug.com/users/1305344/jacek-laskowski) said in a similar question (Spark to process rdd chunk by chunk from json files and post to Kafka topic) 说可以使用 Spark Structured Streaming,但我找不到任何相关示例。
非常感谢,
如果使用文件源:
maxFilesPerTrigger:每个触发器中要考虑的最大新文件数(默认值:无最大值)
spark
.readStream
.format("json")
.path("/path/to/files")
.option("maxFilesPerTrigger", 50)
.load
如果使用 Kafka 源,它会类似,但带有 maxOffsetsPerTrigger
选项。
我正在处理大量文件,我想逐块处理这些文件,假设在每批处理中,我想分别处理每 50 个文件。
如何使用 Spark Structured Streaming 来实现?
我看到 Jacek Laskowski (https://whosebug.com/users/1305344/jacek-laskowski) said in a similar question (Spark to process rdd chunk by chunk from json files and post to Kafka topic) 说可以使用 Spark Structured Streaming,但我找不到任何相关示例。
非常感谢,
如果使用文件源:
maxFilesPerTrigger:每个触发器中要考虑的最大新文件数(默认值:无最大值)
spark
.readStream
.format("json")
.path("/path/to/files")
.option("maxFilesPerTrigger", 50)
.load
如果使用 Kafka 源,它会类似,但带有 maxOffsetsPerTrigger
选项。