快速 HDFS 和 Hive 数据复制

Fast HDFS and Hive data replication

我正在考虑为 2 个用例在集群之间复制数据:

  1. DR(因此在 2 个数据中心之间进行复制
  2. 在 2 个生产集群之间同步

对于第一个,我倾向于认为 Falcon 是正确的选择。但是对于第二个,我想将数据复制为可用的 sson(意味着 HDFS 的放置结束,Hive 的 table 创建结束)。您对此有何看法?

刚刚发现 ReAir https://github.com/airbnb/reair

看起来是个不错的工具。 :)