如何查找在 spark 文件流中处理的文件

how to find files processed in spark file streaming

我设置了一个结构化流式应用程序,它正在监视 blob 存储中的文件夹中的新文件并对它们进行处理。它运作良好,我可以监控和集群健康状况,查看传入记录、输出记录等。 但我真的很想看看是否有任何日志显示文件名已处理,或者该文件中的 x 条记录已处理。

任何指点都会有所帮助。

已处理的文件名保存在流的配置检查点中,例如 .option("checkpointLocation", "dbfs://checkpointPath")

要监控流实际处理了多少输入行,请查看 StreamingQueryListener