从 Spark 替换一个 Hive 分区
Replace a hive partition from Spark
有什么方法可以从 Spark 程序中替换(现有的)配置单元分区?仅替换最新的分区,其余分区保持不变。
以下是我正在努力实现的想法,
我们每分钟从 RDBMS 系统中获取跨国数据进入 HDFS。将有一个 spark 程序(运行 每 5 或 10 分钟)读取数据,执行 ETL 并将输出写入 Hive Table。
由于覆盖整个配置单元 table 会很大,
我们只想为今天的分区覆盖配置单元 table。
一天结束时,源分区和目标分区将更改为第二天。
提前致谢
如您所知,配置单元 table 位置,请将当前日期附加到位置,因为您的 table 已按日期分区并覆盖 hdfs 路径。
df.write.format(source).mode("overwrite").save(path)
Msck repair hive table
一旦完成
有什么方法可以从 Spark 程序中替换(现有的)配置单元分区?仅替换最新的分区,其余分区保持不变。
以下是我正在努力实现的想法,
我们每分钟从 RDBMS 系统中获取跨国数据进入 HDFS。将有一个 spark 程序(运行 每 5 或 10 分钟)读取数据,执行 ETL 并将输出写入 Hive Table。 由于覆盖整个配置单元 table 会很大, 我们只想为今天的分区覆盖配置单元 table。 一天结束时,源分区和目标分区将更改为第二天。
提前致谢
如您所知,配置单元 table 位置,请将当前日期附加到位置,因为您的 table 已按日期分区并覆盖 hdfs 路径。
df.write.format(source).mode("overwrite").save(path)
Msck repair hive table
一旦完成