影响Hive效率的,主要是数据倾斜、数据冗余、Job过多、I/O过多、MR分配不合理等
Hive调优的作用:在保证业务结果不变的前提下,降低资源的使用量,减少任务的执行时间
Hive建表层面优化:如何合理的组织数据,方便后续的高效计算。即,建表类型、文件存储格式、是否压缩等
Hive表的类型有哪些
分区表是在一个或者几个维度上对数据进行分类存储,一个分区对应一个目录,若筛选条件钟有分区字段,Hive只需要遍历对应分区目录下的文件即可,不需要遍历全局数据,从而减少处理数据量,从而提高查询效率
分区表:当一个Hive表的查询在大多数情况下,会根据有一个字段进行筛选,这种情况下,这个表就非常适合作为分区表,且该字段就是分区字段
在创建表时,通过partitioned by实现,用Partition的维度并不是实际数据的一列,具体分区的标志是由插入内容时给定的
创建分区表:
CREATE TABLE page_view(
viewTime INT