【大数据技术】hive中cluster by(clustered by)在建表时使用与在sql中使用的区别及对结果的影响(很细微)
某次实操过程中,发现在建表语句里使用了clustered by,但实际效果是每个bucket里并没有实现按指定字段排序 ,以为是发现了Apache的bug了[/狗头]
create table t_bucket(
id int ,
name string ,
score int
)
clustered by(id) into 4 buckets row format delimited fields terminated by ‘,’ ;
插入数据:
insert into table t_bucket select * from tmp ;