从 Spark 替换一个 Hive 分区

Question

有什么方法可以从 Spark 程序中替换（现有的）配置单元分区？仅替换最新的分区，其余分区保持不变。

以下是我正在努力实现的想法，

我们每分钟从 RDBMS 系统中获取跨国数据进入 HDFS。将有一个 spark 程序（运行每 5 或 10 分钟）读取数据，执行 ETL 并将输出写入 Hive Table。由于覆盖整个配置单元 table 会很大，我们只想为今天的分区覆盖配置单元 table。一天结束时，源分区和目标分区将更改为第二天。

提前致谢

Answer 1

如您所知，配置单元 table 位置，请将当前日期附加到位置，因为您的 table 已按日期分区并覆盖 hdfs 路径。

df.write.format(source).mode("overwrite").save(path)

Msck repair hive table

一旦完成

从 Spark 替换一个 Hive 分区

Replace a hive partition from Spark

hiveql

apache-spark

apache-spark-sql

spark-dataframe