火花结构化流式镶木地板覆盖
spark structured streaming parquet overwrite
我希望能够用 parquet 格式覆盖我的输出路径,
但它不在可用操作(追加、完成、更新)中,
这里还有其他解决方案吗?
val streamDF = sparkSession.readStream.schema(schema).option("header","true").parquet(rawData)
val query = streamDF.writeStream.outputMode("overwrite").format("parquet").option("checkpointLocation",checkpoint).start(target)
query.awaitTermination()
Apache Spark 仅支持 File Sink
的 Append
模式。 Check out here
在写入数据之前,您需要编写代码从 file system
中删除 path/folder/files。
Check out this Whosebug link ForeachWriter
。这将帮助您完成您的案子。
我希望能够用 parquet 格式覆盖我的输出路径, 但它不在可用操作(追加、完成、更新)中, 这里还有其他解决方案吗?
val streamDF = sparkSession.readStream.schema(schema).option("header","true").parquet(rawData)
val query = streamDF.writeStream.outputMode("overwrite").format("parquet").option("checkpointLocation",checkpoint).start(target)
query.awaitTermination()
Apache Spark 仅支持 File Sink
的 Append
模式。 Check out here
在写入数据之前,您需要编写代码从 file system
中删除 path/folder/files。
Check out this Whosebug link ForeachWriter
。这将帮助您完成您的案子。