hbase中的增量数据加载
Incremental data load in hbase
我正在寻找将增量数据(基于源 table 的时间戳)加载到我的 table 中的最佳方法。我有一个来源 table(在 hbase 中),其中数据每天都会更新。在第一个流程中,我必须将完整数据传输到我的测试 table(在 hbase 中)。第二天,我只需要从源 table 传输新添加的记录。为此,我使用时间戳来区分需要传输的内容和不需要的内容。那么哪个是最好的传输方式。我应该使用 PIG、MapReduce 还是 Spark?
您是否考虑过像 org.apache.hadoop.hbase.mapreduce.CopyTable 这样使用现有的 类?他们支持增量复制。
无需编写代码。
我正在寻找将增量数据(基于源 table 的时间戳)加载到我的 table 中的最佳方法。我有一个来源 table(在 hbase 中),其中数据每天都会更新。在第一个流程中,我必须将完整数据传输到我的测试 table(在 hbase 中)。第二天,我只需要从源 table 传输新添加的记录。为此,我使用时间戳来区分需要传输的内容和不需要的内容。那么哪个是最好的传输方式。我应该使用 PIG、MapReduce 还是 Spark?
您是否考虑过像 org.apache.hadoop.hbase.mapreduce.CopyTable 这样使用现有的 类?他们支持增量复制。
无需编写代码。