【大数据技术】hive中cluster by（clustered by）在建表时使用与在sql中使用的区别及对结果的影响（很细微）

【大数据技术】hive中cluster by（clustered by）在建表时使用与在sql中使用的区别及对结果的影响（很细微）
【大数据技术】hive中cluster by（clustered by）在建表时使用与在sql中使用的区别及对结果的影响（很细微）

背景：

某次实操过程中，发现在建表语句里使用了clustered by，但实际效果是每个bucket里并没有实现按指定字段排序，以为是发现了Apache的bug了[/狗头]

过程：

在建表时使用（clustered by）：

create table t_bucket(
id int ,
name string ,
score int
)
clustered by(id) into 4 buckets row format delimited fields terminated by ‘,’ ;

插入数据：

insert into table t_bucket select * from tmp ；

在sql语句里使用
1. select id ,name ,score from t_test cluster by id ;
2. select id ,name ,score from t_test distribute by id sort by score desc ;
结论：
1. clustered by在建表语句里使用时不能实现就分区又区内排序的效果；
2. cluster by在sql里使用时可实现分区+排序的效果，但只能默认增序排列；
3. cluster by = distribute by+ sort by
相关阅读:
如何使用 Excel拆分文本单元格，基于LEFT、RIGHT、MID、SUBSTITUTE、FIND、SEARCH
Cygwin工具制作Redis服务端Window版本
 数据链路层之以太网协议基本知识总结分享
 Linux速成命令
 C和指针第15章输入/输出函数 15.6 打开流
 CANoe-vTESTstudio之Test Diagram编辑器（元素介绍）
恒生期货交易时间（恒生指数期货交割日期）
斯伯克CYBELEC触摸屏维修CybTouch12折弯机特点
 MySQL---多表联合查询（下）（内连接查询、外连接查询、子查询（ALL/ANY/SOME/IN/EXISTS关键字）、自关联查询）
Python数据类型：列表的魔法世界
原文地址：https://blog.csdn.net/u011762522/article/details/125991622

背景：

过程：

在建表时使用（clustered by）：

在sql语句里使用

结论：