Hive 扫描整个数据以查找分桶 table
Hive scanning entire data for bucketed table
我试图通过将数据分桶到单个列上来优化配置单元 SQL。我使用以下语句
创建了 table
CREATE TABLE `source_bckt`(
`uk` string,
`data` string)
CLUSTERED BY(uk) SORTED BY(uk) INTO 10 BUCKETS
然后执行后插入数据"set hive.enforce.bucketing = true;"
当我运行以下select"select * from source_bckt where uk='1179724';"
即使数据应该在一个文件中,可以通过以下等式 HASH('1179724')%10
识别,mapreduce 产生的扫描整个文件集。
有什么想法吗?
尚不支持此优化。
当前的 JIRA 票证状态是 补丁可用
我试图通过将数据分桶到单个列上来优化配置单元 SQL。我使用以下语句
创建了 tableCREATE TABLE `source_bckt`(
`uk` string,
`data` string)
CLUSTERED BY(uk) SORTED BY(uk) INTO 10 BUCKETS
然后执行后插入数据"set hive.enforce.bucketing = true;"
当我运行以下select"select * from source_bckt where uk='1179724';"
即使数据应该在一个文件中,可以通过以下等式 HASH('1179724')%10
识别,mapreduce 产生的扫描整个文件集。
有什么想法吗?
尚不支持此优化。
当前的 JIRA 票证状态是 补丁可用