• 离线数仓 (十) --------- 数仓环境搭建



    一、Hive 环境搭建

    1. Hive 引擎简介

    Hive 引擎包括:默认MR、tez、spark

    Hive on Spark:Hive 既作为存储元数据又负责SQL的解析优化,语法是 HQL 语法,执行引擎变成了Spark,Spark负责采用 RDD 执行。

    Spark on Hive : Hive只作为存储元数据,Spark负责SQL 解析优化,语法是 Spark SQL 语法,Spark负责采用RDD执行。

    2. Hive on Spark 配置

    A、兼容性说明

    注意:官网下载的 Hive3.1.2 和 Spark3.0.0 默认是不兼容的。因为 Hive3.1.2 支持的 Spark 版本是 2.4.5,所以需要我们重新编译 Hive3.1.2 版本。

    编译步骤:官网下载 Hive3.1.2 源码,修改 pom 文件中引用的 Spark 版本为 3.0.0,如果编译通过,直接打包获取 jar 包。如果报错,就根据提示,修改相关方法,直到不报错,打包获取 jar 包。

    B、在 Hive 所在节点部署 Spark

    如果之前已经部署了 Spark,则该步骤可以跳过,但要检查 SPARK_HOME 的环境变量配置是否正确。

    Spark官网下载 jar 包地址: http://spark.apache.org/downloads.html

    上传并解压解压 spark-3.0.0-bin-hadoop3.2.tgz

    [fancy@node101 software]$ tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module/
    [fancy@node101 software]$ mv /opt/module/spark-3.0.0-bin-hadoop3.2 /opt/module/spark
    
    • 1
    • 2

    配置 SPARK_HOME 环境变量

    [fancy@node101 software]$ sudo vim /etc/profile.d/my_env.sh
    
    • 1

    添加如下内容

    # SPARK_HOME
    export SPARK_HOME=/opt/module/spark
    export PATH=$PATH:$SPARK_HOME/bin
    source 使其生效
    
    • 1
    • 2
    • 3
    • 4
    [fancy@node101 software]$ source /etc/profile.d/my_env.sh
    
    • 1

    C、在 hive 中创建 spark 配置文件

    [fancy@node101 software]$ vim /opt/module/hive/conf/spark-defaults.conf
    
    • 1

    添加如下内容(在执行任务时,会根据如下参数执行)

    spark.master                            yarn
    spark.eventLog.enabled                  true
    spark.eventLog.dir                      hdfs://node101:8020/spark-history
    spark.executor.memory                   1g
    spark.driver.memory					    1g
    
    • 1
    • 2
    • 3
    • 4
    • 5

    在HDFS创建如下路径,用于存储历史日志

    [fancy@node101 software]$ hadoop fs -mkdir /spark-history
    
    • 1

    D、向 HDFS 上传 Spark 纯净版 jar 包

    说明1:由于 Spark3.0.0 非纯净版默认支持的是 hive2.3.7 版本,直接使用会和安装的 Hive3.1.2 出现兼容性问题。所以采用 Spark 纯净版 jar 包,不包含 hadoop 和 hive 相关依赖,避免冲突。

    说明2:Hive 任务最终由 Spark 来执行,Spark 任务资源分配由 Yarn 来调度,该任务有可能被分配到集群的任何一个节点。所以需要将 Spark 的依赖上传到 HDFS 集群路径,这样集群中任何一个节点都能获取到。

    上传并解压spark-3.0.0-bin-without-hadoop.tgz

    [fancy@node101 software]$ tar -zxvf /opt/software/spark-3.0.0-bin-without-hadoop.tgz
    
    • 1

    上传 Spark 纯净版 jar 包到 HDFS

    [fancy@node101 software]$ hadoop fs -mkdir /spark-jars
    
    [fancy@node101 software]$ hadoop fs -put spark-3.0.0-bin-without-hadoop/jars/* /spark-jars
    
    • 1
    • 2
    • 3

    E、修改 hive-site.xml 文件

    [fancy@node101 ~]$ vim /opt/module/hive/conf/hive-site.xml
    
    • 1

    添加如下内容

    
    <property>
        <name>spark.yarn.jarsname>
        <value>hdfs://node101:8020/spark-jars/*value>
    property>
      
    
    <property>
        <name>hive.execution.enginename>
        <value>sparkvalue>
    property>
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11

    3. Hive on Spark 测试

    A、启动 hive 客户端

    [fancy@node101 hive]$ bin/hive
    
    • 1

    B、创建一张测试表

    hive (default)> create table student(id int, name string);
    
    • 1

    C、通过insert测试效果

    hive (default)> insert into table student values(1,'abc');
    
    • 1

    若结果如下,则说明配置成功

    在这里插入图片描述

    二、Yarn 配置

    1. 增加 ApplicationMaster 资源比例

    容量调度器对每个资源队列中同时运行的 Application Master 占用的资源进行了限制,该限制通过 yarn.scheduler.capacity.maximum-am-resource-percent 参数实现,其默认值是 0.1,表示每个资源队列上 Application Master 最多可使用的资源为该队列总资源的 10%,目的是防止大部分资源都被 Application Master 占用,而导致 Map/Reduce Task 无法执行。

    生产环境该参数可使用默认值。但学习环境,集群资源总数很少,如果只分配 10% 的资源给 Application Master ,则可能出现,同一时刻只能运行一个Job 的情况,因为一个 Application Master 使用的资源就可能已经达到 10%的上限了。故此处可将该值适当调大。

    A、在 node101 的 /opt/module/hadoop-3.1.3/etc/hadoop/capacity-scheduler.xml 文件中修改如下参数值

    [fancy@node101 hadoop]$ vim capacity-scheduler.xml
    
    • 1
    <property>
        <name>yarn.scheduler.capacity.maximum-am-resource-percentname>
        <value>0.8value>
    property>
    
    • 1
    • 2
    • 3
    • 4

    B、分发 capacity-scheduler.xml 配置文件

    [fancy@node101 hadoop]$ xsync capacity-scheduler.xml
    
    • 1

    C、关闭正在运行的任务,重新启动 yarn 集群

    [fancy@node102 hadoop-3.1.3]$ sbin/stop-yarn.sh
    [fancy@node102 hadoop-3.1.3]$ sbin/start-yarn.sh
    
    • 1
    • 2

    三、数仓开发环境

    数仓开发工具可选用 DBeaver 或者 DataGrip。两者都需要用到 JDBC 协议连接到 Hive,故需要启动 HiveServer2。

    1. 启动 HiveServer2

    [fanchy@node101 hive]$ hiveserver2
    
    • 1

    2. 配置 DataGrip 连接

    A、创建连接

    在这里插入图片描述

    B、配置连接属性

    所有属性配置,和 Hive 的 beeline 客户端配置一致即可。初次使用,配置过程会提示缺少 JDBC 驱动,按照提示下载即可。

    在这里插入图片描述

    C、测试使用

    创建数据库gmall,并观察是否创建成功。

    创建数据库

    在这里插入图片描述
    查看数据库

    在这里插入图片描述
    修改连接,指明连接数据库

    在这里插入图片描述
    选择当前数据库为 gmall

    在这里插入图片描述

    四、数据准备

    一般企业在搭建数仓时,业务系统中会存在一定的历史数据,此处为模拟真实场景,需准备若干历史数据。假定数仓上线的日期为 2020-06-14,具体说明如下。

    1. 用户行为日志

    用户行为日志,一般是没有历史数据的,故日志只需要准备 2020-06-14 一天的数据。具体操作如下:

    • 启动日志采集通道,包括 Flume、Kafka 等
    • 修改两个日志服务器(node101、node102) 中的/opt/module/applog/application.yml配置文件,将mock.date参数改为 2020-06-14。
    • 执行日志生成脚本lg.sh。
    • 观察HDFS是否出现相应文件。

    在这里插入图片描述

    2. 业务数据

    业务数据一般存在历史数据,此处需准备 2020-06-10 至 2020-06-14 的数据。具体操作如下。

    修改 node101 节点上的/opt/module/db_log/application.properties 文件,将mock.date、mock.clear,mock.clear.user 三个参数调整为如图所示的值。

    在这里插入图片描述

    执行模拟生成业务数据的命令,生成第一天2020-06-10的历史数据。

    [fancy@node101 db_log]$ java -jar gmall2020-mock-db-2021-01-22.jar
    
    • 1

    修改 /opt/module/db_log/application.properties 文件,将 mock.date、mock.clear,mock.clear.user 三个参数调整为如图所示的值。

    在这里插入图片描述

    执行模拟生成业务数据的命令,生成第二天2020-06-11的历史数据。

    [fancy@node101 db_log]$ java -jar gmall2020-mock-db-2021-01-22.jar
    
    • 1

    之后只修改 /opt/module/db_log/application.properties 文件中的 mock.date 参数,依次改为2020-06-12,2020-06-13,2020-06-14,并分别生成对应日期的数据。

    执行 mysql_to_hdfs_init.sh 脚本,将模拟生成的业务数据同步到 HDFS。

    [fancy@node101 bin]$ mysql_to_hdfs_init.sh all 2020-06-14
    
    • 1

    观察HDFS上是否出现相应的数据

  • 相关阅读:
    Redis的Java客户端
    计算机中常说的SDK是什么意思?
    Python卡方分布
    特定时点的c-index
    年龄到了一定程度才能体会到世界杯的真正意义
    椭圆的矩阵表示法
    5.MidBook项目经验之MongoDB,Nacos,网关
    数据库系列之MySQL中Join语句优化问题
    Python最重要的知识:字符串教程
    [Python] 编程习题练习
  • 原文地址:https://blog.csdn.net/m0_51111980/article/details/127540671