Hadoop面试题（2）

1.什么是数据倾斜？如何处理数据倾斜？

数据倾斜指的是在分布式计算中，数据在某些节点上不均匀地分布，导致某些节点的负载过重，影响整体计算性能。

处理数据倾斜的方法主要包括以下几种：

增加分区数量：通过增加数据的分区数量，可以使数据更均匀地分布在多个节点上，从而减轻某个节点的负载。可以使用动态分区或者预先定义的静态分区来实现。
优化Join操作：数据倾斜常出现在Join操作中，可以通过以下方式进行优化：
- 增加Join的并行度：通过增加Join操作的并行度，将数据分发到更多的节点上进行计算，减轻负载。
- 使用Map-side Join：如果一个表的大小较小，可以将其加载到内存中，并在Map阶段进行Join操作，避免Shuffle操作。
- 使用Broadcast Join：如果一个表的大小较小，可以将其复制到每个节点上，避免Shuffle操作。
数据重分布：可以通过一些操作将数据重新分布，使其更均匀地分布在各个节点上。例如，可以使用DISTRIBUTE BY和SORT BY语句来重新分布数据。
数据采样和统计分析：可以对数据进行采样或者进行统计分析，找出造成数据倾斜的原因，然后根据结果进行调整和优化。
使用Combiner函数：在MapReduce阶段使用Combiner函数可以在Map端对数据进行预先合并，减少数据量，从而减轻Shuffle阶段的压力。
使用Bucketing：Bucketing是一种将数据划分为多个桶（bucket）的方法，可以通过合理设置桶的数量，使数据更均匀地分布在各个桶中，从而减轻数据倾斜的问题。

2.Hadoop中的作业调度器是什么？请解释FIFO调度器、容量调度器和公平调度器的工作原理。

Hadoop中的作业调度器是负责协调和分配集群资源给不同作业的组件。常见的作业调度器有FIFO调度器、容量调度器和公平调度器：

FIFO调度器：按照作业提交的顺序进行调度，先提交的作业先执行，适用于简单场景，但不具备资源隔离和优先级控制的能力。
容量调度器：将集群资源划分为多个队列，每个队列分配一定的资源，可以设置队列的优先级和资源配额，适用于多租户的场景。
公平调度器：将集群资源按照公平的方式分配给作业，每个作业获取的资源与其需求成比例，适用于资源公平共享的场景。

3.Hadoop中的数据本地性是什么？为什么它对性能很重要？

Hadoop中的数据本地性是指计算任务在执行时可以尽量在存储数据的节点上进行，从而减少数据的网络传输开销。数据本地性对性能很重要，因为网络传输是分布式计算的瓶颈。在Hadoop中，通过调度器选择尽可能在存储数据的节点上执行任务来实现数据本地性。数据本地性有三种级别：数据本地性（Data Local）、机架本地性（Rack Local）和远程本地性（Off-Node）。数据本地性越高，任务执行的效率越高，减少了网络传输开销。

相关阅读:
周末和技术大咖们聚餐，聊到了软件测试行业的“金九银十”高峰【内卷之势已然形成】
小程序开发平台源码系统+社区团购小程序功能带完整的搭建教程
【猿灰灰赠书活动 - 06期】- 【计算机考研书单——408专属】
git创建新分支将项目挂载到新分支操作
测试开发人均年薪30w+？软件测试工程师如何进阶拿到高薪？
SpringBoot 整合ORM
虚拟环境导致的段错误
进程终止（你真的学会递归了吗？考验你的递归基础）
3个ui自动化测试痛点
安全保障基于软件全生命周期-PSP应用

原文地址：https://blog.csdn.net/Young_IT/article/details/133935687