离线数仓 (十) --------- 数仓环境搭建

离线数仓 (十) --------- 数仓环境搭建
目录
一、Hive 环境搭建

 1. Hive 引擎简介

Hive 引擎包括：默认MR、tez、spark。

Hive on Spark：Hive 既作为存储元数据又负责SQL的解析优化，语法是 HQL 语法，执行引擎变成了Spark，Spark负责采用 RDD 执行。

Spark on Hive : Hive只作为存储元数据，Spark负责SQL 解析优化，语法是 Spark SQL 语法，Spark负责采用RDD执行。

2. Hive on Spark 配置

A、兼容性说明

注意：官网下载的 Hive3.1.2 和 Spark3.0.0 默认是不兼容的。因为 Hive3.1.2 支持的 Spark 版本是 2.4.5，所以需要我们重新编译 Hive3.1.2 版本。

编译步骤：官网下载 Hive3.1.2 源码，修改 pom 文件中引用的 Spark 版本为 3.0.0，如果编译通过，直接打包获取 jar 包。如果报错，就根据提示，修改相关方法，直到不报错，打包获取 jar 包。

B、在 Hive 所在节点部署 Spark

如果之前已经部署了 Spark，则该步骤可以跳过，但要检查 SPARK_HOME 的环境变量配置是否正确。

Spark官网下载 jar 包地址： http://spark.apache.org/downloads.html

上传并解压解压 spark-3.0.0-bin-hadoop3.2.tgz
```
[fancy@node101 software]$ tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module/
[fancy@node101 software]$ mv /opt/module/spark-3.0.0-bin-hadoop3.2 /opt/module/spark
1
2
```
配置 SPARK_HOME 环境变量
```
[fancy@node101 software]$ sudo vim /etc/profile.d/my_env.sh
1
```
添加如下内容
```
# SPARK_HOME
export SPARK_HOME=/opt/module/spark
export PATH=$PATH:$SPARK_HOME/bin
source 使其生效
1
2
3
4
```
```
[fancy@node101 software]$ source /etc/profile.d/my_env.sh
1
```
C、在 hive 中创建 spark 配置文件
```
[fancy@node101 software]$ vim /opt/module/hive/conf/spark-defaults.conf
1
```
添加如下内容（在执行任务时，会根据如下参数执行）
```
spark.master                            yarn
spark.eventLog.enabled                  true
spark.eventLog.dir                      hdfs://node101:8020/spark-history
spark.executor.memory                   1g
spark.driver.memory					    1g
1
2
3
4
5
```
在HDFS创建如下路径，用于存储历史日志
```
[fancy@node101 software]$ hadoop fs -mkdir /spark-history
1
```
D、向 HDFS 上传 Spark 纯净版 jar 包

说明1：由于 Spark3.0.0 非纯净版默认支持的是 hive2.3.7 版本，直接使用会和安装的 Hive3.1.2 出现兼容性问题。所以采用 Spark 纯净版 jar 包，不包含 hadoop 和 hive 相关依赖，避免冲突。

说明2：Hive 任务最终由 Spark 来执行，Spark 任务资源分配由 Yarn 来调度，该任务有可能被分配到集群的任何一个节点。所以需要将 Spark 的依赖上传到 HDFS 集群路径，这样集群中任何一个节点都能获取到。

上传并解压spark-3.0.0-bin-without-hadoop.tgz
```
[fancy@node101 software]$ tar -zxvf /opt/software/spark-3.0.0-bin-without-hadoop.tgz
1
```
上传 Spark 纯净版 jar 包到 HDFS
```
[fancy@node101 software]$ hadoop fs -mkdir /spark-jars

[fancy@node101 software]$ hadoop fs -put spark-3.0.0-bin-without-hadoop/jars/* /spark-jars
1
2
3
```
E、修改 hive-site.xml 文件
```
[fancy@node101 ~]$ vim /opt/module/hive/conf/hive-site.xml
1
```
添加如下内容
```
<property>
    <name>spark.yarn.jarsname>
    <value>hdfs://node101:8020/spark-jars/*value>
property>
  

<property>
    <name>hive.execution.enginename>
    <value>sparkvalue>
property>
1
2
3
4
5
6
7
8
9
10
11
```
3. Hive on Spark 测试

A、启动 hive 客户端
```
[fancy@node101 hive]$ bin/hive
1
```
B、创建一张测试表
```
hive (default)> create table student(id int, name string);
1
```
C、通过insert测试效果
```
hive (default)> insert into table student values(1,'abc');
1
```
若结果如下，则说明配置成功

 二、Yarn 配置

 1. 增加 ApplicationMaster 资源比例

容量调度器对每个资源队列中同时运行的 Application Master 占用的资源进行了限制，该限制通过 yarn.scheduler.capacity.maximum-am-resource-percent 参数实现，其默认值是 0.1，表示每个资源队列上 Application Master 最多可使用的资源为该队列总资源的 10%，目的是防止大部分资源都被 Application Master 占用，而导致 Map/Reduce Task 无法执行。

生产环境该参数可使用默认值。但学习环境，集群资源总数很少，如果只分配 10% 的资源给 Application Master ，则可能出现，同一时刻只能运行一个Job 的情况，因为一个 Application Master 使用的资源就可能已经达到 10%的上限了。故此处可将该值适当调大。

A、在 node101 的 /opt/module/hadoop-3.1.3/etc/hadoop/capacity-scheduler.xml 文件中修改如下参数值
```
[fancy@node101 hadoop]$ vim capacity-scheduler.xml
1
```
```
<property>
    <name>yarn.scheduler.capacity.maximum-am-resource-percentname>
    <value>0.8value>
property>
1
2
3
4
```
B、分发 capacity-scheduler.xml 配置文件
```
[fancy@node101 hadoop]$ xsync capacity-scheduler.xml
1
```
C、关闭正在运行的任务，重新启动 yarn 集群
```
[fancy@node102 hadoop-3.1.3]$ sbin/stop-yarn.sh
[fancy@node102 hadoop-3.1.3]$ sbin/start-yarn.sh
1
2
```
三、数仓开发环境

数仓开发工具可选用 DBeaver 或者 DataGrip。两者都需要用到 JDBC 协议连接到 Hive，故需要启动 HiveServer2。

1. 启动 HiveServer2
```
[fanchy@node101 hive]$ hiveserver2
1
```
2. 配置 DataGrip 连接

A、创建连接

B、配置连接属性

所有属性配置，和 Hive 的 beeline 客户端配置一致即可。初次使用，配置过程会提示缺少 JDBC 驱动，按照提示下载即可。

C、测试使用

创建数据库gmall，并观察是否创建成功。

创建数据库

查看数据库

修改连接，指明连接数据库

选择当前数据库为 gmall

四、数据准备

一般企业在搭建数仓时，业务系统中会存在一定的历史数据，此处为模拟真实场景，需准备若干历史数据。假定数仓上线的日期为 2020-06-14，具体说明如下。

1. 用户行为日志

用户行为日志，一般是没有历史数据的，故日志只需要准备 2020-06-14 一天的数据。具体操作如下：
- 启动日志采集通道，包括 Flume、Kafka 等
- 修改两个日志服务器(node101、node102) 中的/opt/module/applog/application.yml配置文件，将mock.date参数改为 2020-06-14。
- 执行日志生成脚本lg.sh。
- 观察HDFS是否出现相应文件。
2. 业务数据

业务数据一般存在历史数据，此处需准备 2020-06-10 至 2020-06-14 的数据。具体操作如下。

修改 node101 节点上的/opt/module/db_log/application.properties 文件，将mock.date、mock.clear，mock.clear.user 三个参数调整为如图所示的值。

执行模拟生成业务数据的命令，生成第一天2020-06-10的历史数据。
```
[fancy@node101 db_log]$ java -jar gmall2020-mock-db-2021-01-22.jar
1
```
修改 /opt/module/db_log/application.properties 文件，将 mock.date、mock.clear，mock.clear.user 三个参数调整为如图所示的值。

执行模拟生成业务数据的命令，生成第二天2020-06-11的历史数据。
```
[fancy@node101 db_log]$ java -jar gmall2020-mock-db-2021-01-22.jar
1
```
之后只修改 /opt/module/db_log/application.properties 文件中的 mock.date 参数，依次改为2020-06-12，2020-06-13，2020-06-14，并分别生成对应日期的数据。

执行 mysql_to_hdfs_init.sh 脚本，将模拟生成的业务数据同步到 HDFS。
```
[fancy@node101 bin]$ mysql_to_hdfs_init.sh all 2020-06-14
1
```
观察HDFS上是否出现相应的数据
相关阅读:
Redis的Java客户端
 计算机中常说的SDK是什么意思？
Python卡方分布
 特定时点的c-index
年龄到了一定程度才能体会到世界杯的真正意义
 椭圆的矩阵表示法
 5.MidBook项目经验之MongoDB,Nacos,网关
 数据库系列之MySQL中Join语句优化问题
 Python最重要的知识：字符串教程
 [Python] 编程习题练习
原文地址：https://blog.csdn.net/m0_51111980/article/details/127540671

目录

一、Hive 环境搭建

1. Hive 引擎简介

2. Hive on Spark 配置

3. Hive on Spark 测试

二、Yarn 配置

1. 增加 ApplicationMaster 资源比例

三、数仓开发环境

1. 启动 HiveServer2

2. 配置 DataGrip 连接

四、数据准备

1. 用户行为日志

2. 业务数据