Hadoop2.0探讨

Hadoop2.0探讨
文章目录
- 8. Hadoop 再探讨
  8.1 Hadoop的优化与发展
  8.2 HDFS 的FA和Federation(Hadoop2.0新特性)
  8.2.1 HDFS HA
  8.2.2 HDFS Federation
  
  8.3 YARN
  8.3.1 MapReduce1.0的缺陷
  8.3.2 Yarn设计思路
  8.3.3 Yarn体系结构
  8.3.4 Yarn工作流程
  8.3.5 Yarn框架和MapReduce1.0框架对比分析
  8.3.6 Yarn框架的发展目标
  
  8.4 Hadoop生态系统中具有代表性的组件
  8.4.1 Pig
  8.4.2 Tez
  8.4.3 Spark和Kafka
8. Hadoop 再探讨

8.1 Hadoop的优化与发展
- Hadoop1.0的局限和不足
  - 抽象层次低，需人工编码：编写一个非常简单的代码都需要人工编写MapReduce代码，进行编译打包运行
  - 表达能力有限：现实中的一些问题不是使用Map和Reduce就能完成的
  - 开发者需要自己管理作业（Job）之间的依赖关系：多个MapReduce任务之间的前后关系需要人工管理
  - 难以看到程序整体逻辑
  - 执行迭代操作效率低：每次迭代都需要将结果先写入到HDFS中，下一个MapReduce任务再从HDFS中读取数据
  - 资源浪费：整个任务执行过程中Map任务结束之后才能进行Reduce任务，导致Reduce一直处于空闲状态
- Hadoop2.0的优化与发展
  - Hadoop自身两大核心组件，MapReduce和HDFS的架构设计改进
  - Hadoop生态系统其他组件的不断丰富，包括Pig、Tez、Spark和Kafka等
- Hadoop1.0到Hadoop2.0对比
- 不断完善的Hadoop生态系统
8.2 HDFS 的FA和Federation(Hadoop2.0新特性)

8.2.1 HDFS HA
- 整体结构
  - 名称节点发生故障，则立即切换到待命节点
  - 共享存储系统保证（活跃）名称节点和（待命）名称节点的中保存信息的同步
  - 共享存储系统将活跃节点的Editlog不断的同步到待命节点
8.2.2 HDFS Federation
- HDFS1.0中存在的问题
  - 单点故障问题：通过HA解决
  - 不可以水平扩展：纵向扩展如加内存可能导致启动时间过长
  - 系统整体性能受限于单个名称节点的吞吐量：一秒钟可以接入多少外部节点还是由外部节点决定的
  - 单个名称节点难以提供不同程序之间的隔离性：一个程序消耗的资源非常大，可能导致另外的程序无法运行
  - HDFS HA是热备份，提供高可用性、但是无法解决可扩展性、系统性能和隔离性
- HDFS Federation架构
  - 提供多个名称节点，由用户设置，名称节点之间彼此独立
  - Federation提供了向后的兼容性：单名称节点的应用程序可以无缝迁移到多名称节点
  - 所有的名称节点共享底层的数据节点
  - 通过用户挂载不同的命名空间，使用不同的名称节点，用户可以看到一个全局命名空间挂载表，用户可以看到每个子命名空间
- HDFS Federation设计可解决单名称节点存在的问题
  - 集群扩展性问题：多个名称节点，每个名称节点可以独立的管理一个目录，让一个集群可以扩展到更多空间去
  - 性能更高效：多个名称节点各自管理数据，而且可以同时提供对外服务
  - 良好的隔离性：不同数据分给不同的名称节点去管理，有效的对应用程序进行隔离
8.3 YARN

8.3.1 MapReduce1.0的缺陷
- 缺陷
  - 存在单点故障：只有一个JobTracker负责整个作业的管理调度
  - JobTracker"大包大揽"导致任务过重：资源管理调度分析、任务管理分配、任务监控以及失败的恢复
  - 容易出现内存溢出：只考虑MapReduce的任务数量，不考虑单个MapReduce任务消耗的资源，多个耗内存的任务一起执行，可能会导致内存溢出
  - 资源划分不合理：将资源等分为slot，Map的slot和Reduce的slot隔离，Map在运行时，Reduce的slot资源浪费
8.3.2 Yarn设计思路
- 将JobTracker三大功能拆分
- MapReduce1.0和Hadoop2.0
  - MapReduce1.0既是一个计算框架，也是一个资源调度框架
  - Hadoop2.0将MapReduce1.0中的资源管理调度功能单独分离出来，形成了YARN,使得Yarn成为了纯粹的资源管理调度框架
  - 而被剥离了资源管理调度功能的MapReduce框架就变成了MapReduce2.0，它是运行在Yarn上的纯粹计算框架，不再负责资源调度管理任务，而是由Yarn提供资源管理调度服务
8.3.3 Yarn体系结构
- Yarn体系结构
- Yarn各个组成部分作用
  - ResourceManager
    处理客户端请求
    启动/监控 ApplicaionMaster
    监控NodeManager
    资源分配与调度
  - ApplicationMaster
    为应用程序申请资源，并分配给内部任务
    任务调度、监控与容错（失败恢复）
    运行MapReduce所需要的资源(cpu)等由applicationMaster向ResourceManager申请
  - NodeManager
    是单个节点上的资源管理
    处理来自ResourceManager的命令
    处理来自ApplicationMaster的命令
- ResourceManager作用、
  - ResourceManager包括了Scheduler（调度器）和Applications Manager(应用程序管理器)
  - 将内存资源以容器的形式分配，而不是以slot的形式分配
- ApplicationMaster
  - ApplicationMaster的主要功能
    
    当用户作业提交时，ApplicationMater与ResourceManager协商获取资源，ResourceManager会以容器的形式给ApplicationMaster分配资源
    把获得的资源进一步分配给内部的各个任务（Map任务和Reduce任务），实现资源的“二次分配”
    与NodeManager保持交互通信进行应用程序的启动、运行、监控和停止，监控申请到的资源的使用情况，对所有任务的执行进度和状态进行监控，并在任务发生失败时执行失败恢复（即重新申请资源重启任务）
    定时向ResourceManager发送“心跳”信息，报告资源的使用情况和应用的进度信息
    当作业完成时，ApplicationMaster向ResourceMnager注销容器，执行周期完成
  - NodeManager:驻留在一个Yarn集群中的每一个节点的代理
    
    容器生命周期管理：容器具体运行Map任务或者Reduce任务，还可以支持其他的计算框架
    监控每个容器资源（CPU、内存等）使用情况
    跟踪节点健康状态
    以“心跳”的方式与ResourceManager保持通信
    向ResourceManager汇报作业的资源使用情况和每个容器的运行状态
    接受ApplicationMaster的启动/停止容器的各种请求
  - NodeManager的主要说明
- YARN和Hadoop平台其他组件的统一部署
8.3.4 Yarn工作流程
- Yarn提交作业之后的全流程执行过程
  - 用户编写客户端应用程序，向Yarn提交应用程序，提交内容包括：Applications Master程序、启动Applications Master命令、以及用户程序
  - ResourceManager负责接受和处理来自客户端请求
  - ApplicationMaster被创建会首先向ResourceManager注册：为了ResourceManager能够实时监控ApplicationMaster
  - ApplicationMaster向ResourceManager申请资源
  - ResourceManager以“容器”的形式向ApplicaionMaster分配资源
  - 资源二次分配，在容器中将资源分配给Map任务和Reduce任务
  - 各个任务向ApplicationMaster汇报自己的状态和进度
- 应用承租运行完成，注销关闭ApplicationMaster
8.3.5 Yarn框架和MapReduce1.0框架对比分析
- 大部分API以及接口是兼容的
- Yarn相对于MapReduce1.0的优势
  - 大大减少了承担中心服务功能ResourceManager的资源消耗
  - ApplicationMaster来完成需要大量资源消耗的任务调度和监控
  - 多个作业对应多个ApplicationMaster，实现了监控分布化
  - MapReduce1.0既是一个计算框架，又是一个资源管理调度框架，但是，只能支持MapReduce编程模型
  - Yarn是一个纯粹的资源调度管理框架，在它上面可以运行包括MapReduce在内的不同类型的计算框架，只要编程实现相应的ApplicationMaster.
  - Yarn中的资源管理比MapReduce1.0更高效，以容器为单位，而不是以slot为单位
8.3.6 Yarn框架的发展目标
- 目标：在一个Yarn上运行多个计算框架
- 为什么要实现“一个集群多个框架”？
  - 为了避免不同类型的应用之间互相干扰，企业需要把内部的服务器拆分成多个集群，分别安装运行不同的计算框架，“即一个框架一个集群”
    
    但是这样导致集群资源利用率低
    数据无法共享
    维护代价高
  - Yarn的实现优势
  - Yarn上部署各种计算框架
8.4 Hadoop生态系统中具有代表性的组件

8.4.1 Pig
- Pig简要介绍
- Pig提供的相关操作
  - 过滤，分组，连接，排序等
- Pig的优势
- Pig能做什么？
  - 加载数据，表达转换数据，存储最终结果
  - 企业将数据收集通过Pig进行数据加工：对收集过来的数据进行抽取、转换、加载，之后再放入数据仓库（Hive）
  - Pig Latin的应用程序实例
  - 将执行代码转换为流程图，使用MapReduce解决
- Pig的应用场景
- Pig的主要用户
8.4.2 Tez
- Tez框架简要介绍
- Tez将Map和Reduce拆分成更细粒度的字任务
  - 分解后的元操作可以任意灵活组合，产生新的操作
  - 经过一些控制程序组装后，可以形成一个大的DAG作业
  - 通过DAG作业的方式运行MapReduce作业，提供程序运行的整体处理逻辑
  - Hortonworks把Tez应用到数据仓库Hive的优化中，使得性能提升了约100倍
- HiveQL在MapReduce和Tez中的执行情况对比
  - 在MapReduce中三次写入HDFS的行为降低性能
  - Tez的优化主要体现在
    去除连续两个作业之间的“写入HDFS”
    去除每个工作流中多余的Map阶段
- Tez可应用于多个框架
- Tez在Hadoop生态系统中的作用
- Tez+Hive与Impala、Dremel、Drill区别
8.4.3 Spark和Kafka
- Hadoop缺陷
- Spark的优势
- Kafka
  - 一种高吞吐量的分布式发布订阅消息系统，用户通过Kafka系统可以发布大量的消息，同时也能实时订阅消费消息
  - 可以同时男足在线实时处理和批量离线处理
- Kafka作用
相关阅读:
八数码问题【人工智能实验】
爱摸鱼的TT~自学Java从入门到入土学习手册
 挑战拯救痴心“舔狗”，我和大模型都尽力了
 什么样的vue面试题答案才是面试官满意的
 基于暗原色先验的单幅图像去雾——算法复现
 景联文科技数据采集低价策略帮助AI企业降低模型训练成本
 替代ELK：ClickHouse+Kafka+FlieBeat
spring-cloud-starter-openfeign 的使用
 计算机网络例题答案
 【Playwright+Python】系列教程（五）元素定位
原文地址：https://blog.csdn.net/weixin_44911248/article/details/133756801

文章目录

8. Hadoop 再探讨

8.1 Hadoop的优化与发展

8.2 HDFS 的FA和Federation(Hadoop2.0新特性)

8.2.1 HDFS HA

8.2.2 HDFS Federation

8.3 YARN

8.3.1 MapReduce1.0的缺陷

8.3.2 Yarn设计思路

8.3.3 Yarn体系结构

8.3.4 Yarn工作流程

8.3.5 Yarn框架和MapReduce1.0框架对比分析

8.3.6 Yarn框架的发展目标

8.4 Hadoop生态系统中具有代表性的组件

8.4.1 Pig

8.4.2 Tez

8.4.3 Spark和Kafka