Hive 扫描整个数据以查找分桶 table

Question

我试图通过将数据分桶到单个列上来优化配置单元 SQL。我使用以下语句

创建了 table

CREATE TABLE `source_bckt`(
  `uk` string, 
  `data` string)
CLUSTERED BY(uk) SORTED BY(uk) INTO 10 BUCKETS

然后执行后插入数据"set hive.enforce.bucketing = true;"

当我运行以下select"select * from source_bckt where uk='1179724';" 即使数据应该在一个文件中，可以通过以下等式 HASH('1179724')%10 识别，mapreduce 产生的扫描整个文件集。

有什么想法吗？

Answer 1

尚不支持此优化。
当前的 JIRA 票证状态是 补丁可用

Hive scanning entire data for bucketed table