火花结构化流式镶木地板覆盖

spark structured streaming parquet overwrite

我希望能够用 parquet 格式覆盖我的输出路径, 但它不在可用操作(追加、完成、更新)中, 这里还有其他解决方案吗?

val streamDF = sparkSession.readStream.schema(schema).option("header","true").parquet(rawData)

val query = streamDF.writeStream.outputMode("overwrite").format("parquet").option("checkpointLocation",checkpoint).start(target)
query.awaitTermination()

Apache Spark 仅支持 File SinkAppend 模式。 Check out here

在写入数据之前,您需要编写代码从 file system 中删除 path/folder/files。

Check out this Whosebug link ForeachWriter。这将帮助您完成您的案子。