Hive 扫描整个数据以查找分桶 table

Hive scanning entire data for bucketed table

我试图通过将数据分桶到单个列上来优化配置单元 SQL。我使用以下语句

创建了 table
CREATE TABLE `source_bckt`(
  `uk` string, 
  `data` string)
CLUSTERED BY(uk) SORTED BY(uk) INTO 10 BUCKETS

然后执行后插入数据"set hive.enforce.bucketing = true;"

当我运行以下select"select * from source_bckt where uk='1179724';" 即使数据应该在一个文件中,可以通过以下等式 HASH('1179724')%10 识别,mapreduce 产生的扫描整个文件集。

有什么想法吗?

尚不支持此优化。
当前的 JIRA 票证状态是 补丁可用

https://issues.apache.org/jira/browse/HIVE-5831