Hive Hbase JOIN 性能 & KUDU

Hive Hbase JOIN performance & KUDU

阅读 Cloudera 文档,使用 Impala 加入 Hive table 针对 HBase 较小的 tables 如下所述,然后在没有大数据设备(例如 OBDA 和较大的 HBase 维度 table 即 mutable:

If you have join queries that do aggregation operations on large fact tables and join the results against small dimension tables, consider using Impala for the fact tables and HBase for the dimension tables. (Because Impala does a full scan on the HBase table in this case, rather than doing single-row HBase lookups based on the join column, only use this technique where the HBase table is small enough that doing a full table scan does not cause a performance bottleneck for the query.)

有没有办法以另一种方式查找单个键?

此外,我在 KUDU 和 HDFS 上注意到以下内容,大概是 HIVE。有人在这里有经验吗?渴望知道。我会在适当的时候自己尝试,但是在非 parcelled quickstarts 上安装 parcels 并不是那么容易...

在单个应用程序(或查询)中混搭存储管理器

• SELECT COUNT(*) FROM my_fact_table_on_hdfs JOIN
my_dim_table_in_kudu ON ...

谨慎行事,与 KUDU 链接维度将是避免在仅需要 lkp 时在 HBASE 中扫描大维度的方法。

我收回后一点,我确信如果 JOIN 是 equijoin,它不会导致 HBASE 扫描。

也就是说,IMPALA 使用 MPP 允许使用 MPP 方法 w/o MR 和维度与事实表的 JOINing。 OBDA 的优势现在不那么明显了。我。