遇到问题总结

总结

一、总结

一、总结

1.1 hive数据倾斜

1.2 产生数据倾斜的条件

		数据计算时发发生了 shuffle，对数据进行了重新分区
1

1.3 关键词：

		join：某个或几个 key 比较集中，或者存在 null key，造成分发到某一个或某几个 reduce 的数据远高于平均值
		group by ：维度过小，某值的数量过多，造成某个维度或者某几个维度数据量特别大，集中在一个 reduce
1
2

1.4 产生数据倾斜的原因分为3种

	1、特殊情形处理
		①同数据类型关联产生数据倾斜
		情形：比如 a 表中 user_id 字段为 int，b表的 user_id 为 string 按照 user_id 进行两个表的 join 时
		解决方法：把 int 类型转换为 string 类型
		② null key 不参与关联
		③数据加盐 赋予 null 值随机值
		④提高reduce并行度
		设置reduce数为15：set mapred.reduce.tasks=15 来缓解数据倾斜的情况
	2、group by 导致的数据倾斜
		①开启负载均衡
		②group by 双重预聚合
	3、join 导致的数据倾斜
		①reduce join 改为 map join 适合小表关联大表的时候
		②过滤倾斜 join 单独进行 join 
1
2
3
4
5
6
7
8
9
10
11
12
13
14

2.1 hive处理小文件

小文件带来的影响：
	1、HDFS内存消耗资源过大，并限制了数据的存储规模
		在HDFS中，文件保存在 datanode 中，在 namenode 中会有一个内存对象与之对应，用于存储文件的元信息。
	2、数据的访问更加耗时
		访问大量的小文件，需要大量的定位寻址操作，不断的在 namenode 间跳跃去检索小文件。
	3、数据运算的时间及计算资源成本消耗更高
小文件产生的原因：
	1、数据源本身包含大量的小文件
	2、reduce 数量多导致生成的小文件增多
	3、使用动态分区导致小文件增多
		每个 map 的对应分区有10个，有3000个 map ，则会生成 3000*10个小文件
小文件的解决思路：
	1、从源端限制小文件的产生
		①使用追加写的存储格式
		②避免使用动态分区
		③执行 mapreduce 时减少 reduce 的数量
	2、对已产生的小文件进行处理
		①创建离线任务将小文件合并成大文件
	3、hive 的解决方案
		①hive sql 提供了 distribute by 语法用于控制 map 端如何拆分数据给 reduce ，distribute by 根据后面的 reduce 数进行分发，默认采用 hash 算法
		②hive 还采用归档操作用于将小文件打包归档
	4、spark 的解决方案
		①saprk 生成的文件数量取决于 RDD 里的 partition 数量和表分区数量
		生成文件数量=RDD分区数*表分区数
		②可以通过减少最后一阶段的 RDD分区数来减少文件数量
	5、flink 的解决方案
		①flink 提供了小文件自动合并的功能，在同一个 checkpoint 周期的文件会自动合并，设置合理的 checkpoint 周期长度，可以减少小文件的产生
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27

3.1 hive的架构、sql编译器、解析器

3.11 hive 架构

http://t.csdn.cn/n1rn2
1

3.12 hive 的sql编译器、解析器

1、根据 Antlr 定义的 sql 语法规则，将相关 sql 进行词法语法解析，转化为抽象语法数 AST Tree
2、语义解析
	遍历 AST Tree，抽象出查询的基本组成单元 QueryBlock,AST Tree生成后由于其复杂度依旧较高，不便于翻译为mapreduce 程序，需要进一步进行抽象和结构化，形成QueryBlock。
	QueryBlock 是一条 sql 最基本的组成单元，包括三部分：输入源、计算过程、输出，简单的来讲一个 QueryBlock 就是一个子查询，QueryBlock 的生成过程为一个递归过程，先序遍历 AST Tree，遇到不同的 Token 节点，保存到相应的属性中。
3、生成逻辑执行计划
	遍历 QueryBlock ，翻译为执行操作树 OperatorTree：hive 最终生成的 mapreduce 任务，map 阶段和 reduce 阶段，均由OperatorTree组成，基本的操作符包括：TableScanOperator，SelectOperator，FilterOperator，JoinOperator，GroupByOperator，ReduceSinkOperator。
	Operator 在 mapreduce 阶段之间的数据传递都是一个流式的过程，每一个 Operator 对一行数据完成操作后之后将数据传递给 ChildOperator计算，由于Join、GroupBy、OrderBy 均需在 Reduce 阶段完成，所以在生成相应操作的Operator 之前，都会先形成一个 ReduceSinkOperator，将字段组合并序列化为 ReduceKey、Value、PartitionKey。
4、优化逻辑执行计划
5、生成物理执行计划
6、优化物理执行计划
1
2
3
4
5
6
7
8
9
10

相关阅读:
线程池学习心得
如何计算UPS蓄电池配置及蓄电池的放电时间
【Flink实战】新老用户方案优化使用状态与布隆过滤器的方式
18_Nginx_rewrite阶段_rewrite模块
【MySQL索引】MySQL索引失效的几种场景详解
从vue源码中看diff算法
java简介
双链笔记软件 Roam Edit 的优点、缺点、评价及学习资源
springmvc拦截器
链表OJ练习（2）

原文地址：https://blog.csdn.net/weixin_65996579/article/details/126739829