在映射期间替换为 HBase 查找以进行 mapreduce
Replacement to HBase lookup during map for mapreduce
在 mapreduce 处理过程中,我需要在一次 map 执行中多次查找 hbase。这正在成为一个瓶颈,因为 hbase 变得非常慢。
一个map过程中会多次查找,例如每一行包含多个员工id,员工信息存储在hbase中。
有什么替代方法?对于这样的处理,hbase 应该很慢吗?是不是把Hbase当成hdfs文本然后做join而不是lookups比较好呢
如果不确切知道您的 MR 工作在做什么,很难给出一个完美的答案,但我会考虑使用 TableInputFormatBase
(with MultipleInputs
将 HBase table 与您的映射器一起读入您的映射器其他数据),然后加入员工 ID。这可能意味着您现在需要两个 MR 作业,但它可能比多个查找更快,并且肯定应该更好地扩展。
在 mapreduce 处理过程中,我需要在一次 map 执行中多次查找 hbase。这正在成为一个瓶颈,因为 hbase 变得非常慢。 一个map过程中会多次查找,例如每一行包含多个员工id,员工信息存储在hbase中。
有什么替代方法?对于这样的处理,hbase 应该很慢吗?是不是把Hbase当成hdfs文本然后做join而不是lookups比较好呢
如果不确切知道您的 MR 工作在做什么,很难给出一个完美的答案,但我会考虑使用 TableInputFormatBase
(with MultipleInputs
将 HBase table 与您的映射器一起读入您的映射器其他数据),然后加入员工 ID。这可能意味着您现在需要两个 MR 作业,但它可能比多个查找更快,并且肯定应该更好地扩展。