Hadoop HBase Hive day3-day4.md

Hadoop HBase Hive day3-day4.md
1学员答疑

1，自己部署不起来
基本原因是 vi/vim使用不熟悉

2，可以有两种方式解决

 1 下载module.tar

=============学生操作==============

2:上传module.tar到/opt/software/

3:解压
```
sudo chown -R /opt/
tar -xvf /opt/software/module.tar -C /opt/module/
1
2
```
4:环境变量修改
```
vim /etc/profile
1
```
添加
```
JAVA_HOME=/opt/module/jdk1.8.0_212
PATH=$PATH:$JAVA_HOME/bin
export PATH JAVA_HOME

HADOOP_HOME=/opt/module/hadoop-3.1.3
PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export PATH  HADOOP_HOME
1
2
3
4
5
6
7
```
再
```
source /etc/profile 
1
```
5:将虚拟机改成hadoop101
按《Hadoop虚拟机准备.txt》注意ip，网段与主机名
重启
```
sudo reboot
1
```
6：清除原有ssh
```
ssh-keygen -R "你的远程服务器ip地址"
1
```
再重新生成ssh

=============老师操作==============

1：将moudle目录进行压缩
```
cd  /opt/module
tar -cvf  /opt/software/module.tar ./
1
2
```
下载发给学生

太大了

2 使用git

先安装git
```
sudo  yum install git
1
```
然后一路输入y回车

cd到配置文件目录
```
cd /opt/module/hadoop-3.1.3/etc
1
```
给hadoop重命名
```
mv hadoop hadoop_bak
1
```
同步我的配置内容
```
git clone https://codehub.devcloud.cn-north-4.huaweicloud.com/hadooppzxxgl00001/hadoop.git
1
```
可以使用 start-all.sh启动

=============老师操作==============
```
git init
git add .
git commit -m "import"
git remote add origin  git@codehub.devcloud.cn-north-4.huaweicloud.com:hadooppzxxgl00001/hadoop.git


1
2
3
4
5
6
```
第3天

 第1节 HBase简介

 1.1 HBase定义

HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。

1.2 HBase数据模型

逻辑上，HBase的数据模型同关系型数据库很类似，数据存储在一张表中，有行有列。但从HBase的底层物理存储结构（K-V）来看，HBase更像是一个multi-dimensional map
。

1.2.1 HBase逻辑结构

 1.2.2 HBase物理存储结构

 1.2.3 数据模型

（1）Name Space
命名空间，类似于关系型数据库的DatabBase概念，每个命名空间下有多个表。HBase有两个自带的命名空间，分别是hbase和default，hbase中存放的是HBase内置的表，default表是用户默认使用的命名空间。
（2）Region
类似于关系型数据库的表概念。不同的是，HBase定义表时只需要声明列族即可，不需要声明具体的列。这意味着，往HBase写入数据时，字段可以动态、按需指定。因此，和关系型数据库相比，HBase能够轻松应对字段变更的场景。
（3）Row
HBase表中的每行数据都由一个RowKey和多个Column（列）组成，数据是按照RowKey的字典顺序存储的，并且查询数据时只能根据RowKey进行检索，所以RowKey的设计十分重要。
（4）Column
HBase中的每个列都由Column Family(列族)和Column Qualifier（列限定符）进行限定，例如info：name，info：age。建表时，只需指明列族，而列限定符无需预先定义。
（5）Time Stamp
用于标识数据的不同版本（version），每条数据写入时，如果不指定时间戳，系统会自动为其加上该字段，其值为写入HBase的时间。
（6）Cell
由{rowkey, column Family：column Qualifier, time Stamp} 唯一确定的单元。cell中的数据是没有类型的，全部是字节码形式存贮

 1.3 HBase基本架构：

（1）Region Server
Region Server为 Region的管理者，其实现类为HRegionServer，主要作用如下:
对于数据的操作：get, put, delete；
对于Region的操作：splitRegion、compactRegion。
（2）Master
Master是所有Region Server的管理者，其实现类为HMaster，主要作用如下：
对于表的操作：create, delete, alter
对于RegionServer的操作：分配regions到每个RegionServer，监控每个RegionServer的状态，负载均衡和故障转移。
（3）Zookeeper
HBase通过Zookeeper来做Master的高可用、RegionServer的监控、元数据的入口以及集群配置的维护等工作。
（4）HDFS
HDFS为HBase提供最终的底层数据存储服务，同时为HBase提供高可用的支持。

第2节 HBase安装部署(单机版)

2.1 HBase的解压

解压Hbase到指定目录：
```
[dev1@hadoop101 software]$ tar -zxvf hbase-1.3.1-bin.tar.gz -C /opt/module
1
```
2.2 配置环境变量

打开文件
```
sudo vim  /etc/profile
1
```
添加
```
HBASE_HOME=/opt/module/hbase-1.3.1
PATH=$PATH:$HBASE_HOME/bin
export PATH  HBASE_HOME

1
2
3
4
```
重新加载
```
source /etc/profile
1
```
2.3 HBase的配置文件

修改HBase对应的配置文件。
(1）hbase-env.sh修改内容：
```
export JAVA_HOME=/opt/module/jdk1.8.0_212

1
2
```
注意：下面还有一栏被注释掉的export HBASE_MANAGES_ZK=true这一行是告诉hbase是否使用自己的ZK进行管理，我们不用管他，注释着就行。

(2）hbase-site.xml 修改内容：
```
  <property>
    <name>hbase.rootdir</name>
    <value>file:opt/module/hbase-1.3.1/HBaseData</value>
  </property>
  <property>
    <name>hbase.zookeeper.property.dataDir</name>
    <value>/opt/module/hbase-1.3.1/zkData</value>
  </property>
  <property>
    <name>hbase.unsafe.stream.capability.enforce</name>
    <value>false</value>
  </property>

1
2
3
4
5
6
7
8
9
10
11
12
13
```
注意执行
```
mkdir -p /opt/module/hbase-1.3.1/HBaseData
mkdir -p /opt/module/hbase-1.3.1/zkData

1
2
3
```
这里是告诉hbase，使用我们电脑的文件系统，作为数据存储。
hbase.unsafe.stream.capability.enforce这个参数的描述中我们可以看到
```
// 如果你打算在本地文件系统中跑hbase，请禁掉此项
Disable this if you intend to run on LocalFileSystem
1
2
```
所以，我们设为false

2.4 HBase服务的启动

1．启动方式1
```
 [dev1@hadoop101 hbase]$ bin/hbase-daemon.sh start master
[dev1@hadoop101 hbase]$ bin/hbase-daemon.sh start regionserver
1
2
```
2．启动方式2
```
[dev1@hadoop101 hbase]$ bin/start-hbase.sh
对应的停止服务：
[dev1@hadoop101 hbase]$ bin/stop-hbase.sh
1
2
3
```
```
报错：SLF4J: Class path contains multiple SLF4J bindings.
将 hbase目录下的删除
1
2
```
查看jps

2.5进入shell
```
hbase shell
1
```
第2节 HBase集群安装部署（集群，了解）

2.1 Zookeeper正常部署

首先保证Zookeeper集群的正常部署，并启动之：
```
[dev1@hadoop102 zookeeper-3.4.10]$ bin/zkServer.sh start
[dev1@hadoop103 zookeeper-3.4.10]$ bin/zkServer.sh start
[dev1@hadoop104 zookeeper-3.4.10]$ bin/zkServer.sh start
1
2
3
```
2.2 Hadoop正常部署

Hadoop集群的正常部署并启动：
```
[dev1@hadoop102 hadoop-3.1.3]$ sbin/start-dfs.sh
[dev1@hadoop103 hadoop-3.1.3]$ sbin/start-yarn.sh
1
2
```
2.3 HBase的解压

解压Hbase到指定目录：
```
[dev1@hadoop102 software]$ tar -zxvf hbase-1.3.1-bin.tar.gz -C /opt/module
1
```
2.4 HBase的配置文件
修改HBase对应的配置文件。
1）hbase-env.sh修改内容：
```
export JAVA_HOME=/opt/module/jdk1.6.0_144
export HBASE_MANAGES_ZK=false
1
2
```
2）hbase-site.xml修改内容：
```
<configuration>
    <property>
        <name>hbase.rootdir</name>
        <value>hdfs://hadoop102:9000/HBase</value>
    </property>

    <property>
        <name>hbase.cluster.distributed</name>
        <value>true</value>
    </property>

   
    <property>
        <name>hbase.master.port</name>
        <value>16000</value>
    </property>

    <property>   
        <name>hbase.zookeeper.quorum</name>
         <value>hadoop102,hadoop103,hadoop104</value>
    </property>

    <property>   
        <name>hbase.zookeeper.property.dataDir</name>
         <value>/opt/module/zookeeper-3.4.10/zkData</value>
    </property>
</configuration>
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
```
3）regionservers：
```
hadoop102
hadoop103
hadoop104
1
2
3
```
4）软连接hadoop配置文件到HBase：
```
[dev1@hadoop102 module]$ ln -s /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml /opt/module/hbase-1.3.1/conf/core-site.xml
[dev1@hadoop102 module]$ ln -s /opt/module/hadoop-3.1.3/etc/hadoop/hdfs-site.xml /opt/module/hbase-1.3.1/conf/hdfs-site.xml
1
2
```
2.5 HBase远程发送到其他集群
```
[dev1@hadoop102 module]$ xsync hbase/
1
```
2.6 HBase服务的启动

1．启动方式
```
 [dev1@hadoop102 hbase]$ bin/hbase-daemon.sh start master
[dev1@hadoop102 hbase]$ bin/hbase-daemon.sh start regionserver
1
2
```
提示：如果集群之间的节点时间不同步，会导致regionserver无法启动，抛出ClockOutOfSyncException异常。
修复提示：
a、同步时间服务

b、属性：hbase.master.maxclockskew设置更大的值
```
<property>
        <name>hbase.master.maxclockskew</name>
        <value>180000</value>
        <description>Time difference of regionserver from master</description>
</property>
1
2
3
4
5
```
2．启动方式2
```
[dev1@hadoop102 hbase]$ bin/start-hbase.sh
对应的停止服务：
[dev1@hadoop102 hbase]$ bin/stop-hbase.sh
1
2
3
```
2.7 查看HBase页面

启动成功后，可以通过“host:port”的方式来访问HBase管理页面，例如：
```
http://hadoop101:16010
1
```
第3节 HBase Shell操作

 3.1 基本操作

1．进入HBase客户端命令行
```
[dev1@hadoop102 hbase]$ bin/hbase shell
1
```
2．查看帮助命令
```
hbase(main):001:0> help
1
```
3．查看当前数据库中有哪些表
```
hbase(main):002:0> list
1
```
3.2 表的操作

1．创建表
```
hbase(main):002:0> create 'student','info'
1
```
2．插入数据到表
```
hbase(main):003:0> put 'student','1001','info:sex','male'
hbase(main):004:0> put 'student','1001','info:age','18'
hbase(main):005:0> put 'student','1002','info:name','Janna'
hbase(main):006:0> put 'student','1002','info:sex','female'
hbase(main):007:0> put 'student','1002','info:age','20'
1
2
3
4
5
```
3．扫描查看表数据
```
hbase(main):008:0> scan 'student'
hbase(main):009:0> scan 'student',{STARTROW => '1001', STOPROW  => '1001'}
hbase(main):010:0> scan 'student',{STARTROW => '1001'}
1
2
3
```
4．查看表结构
```
hbase(main):011:0> describe 'student'
1
```
5．更新指定字段的数据
```
hbase(main):012:0> put 'student','1001','info:name','Nick'
hbase(main):013:0> put 'student','1001','info:age','100'
1
2
```
6．查看“指定行”或“指定列族:列”的数据
```
hbase(main):014:0> get 'student','1001'
hbase(main):015:0> get 'student','1001','info:name'
1
2
```
7．统计表数据行数
```
hbase(main):021:0> count 'student'
1
```
8．删除数据
删除某rowkey的全部数据：
```
hbase(main):016:0> deleteall 'student','1001'
1
```
删除某rowkey的某一列数据：
```
hbase(main):017:0> delete 'student','1002','info:sex'
1
```
9．清空表数据
```
hbase(main):018:0> truncate 'student'
1
```
提示：清空表的操作顺序为先disable，然后再truncate。
10．删除表
首先需要先让该表为disable状态：
```
hbase(main):019:0> disable 'student'
1
```
然后才能drop这个表：
```
hbase(main):020:0> drop 'student'
1
```
提示：如果直接drop表，会报错：ERROR: Table student is enabled. Disable it first.
11．变更表信息
将info列族中的数据存放3个版本：
```
hbase(main):022:0> alter 'student',{NAME=>'info',VERSIONS=>3}
hbase(main):022:0> get 'student','1001',{COLUMN=>'info:name',VERSIONS=>3}
1
2
```
第4节《HBase实操练习题》

第一题：namespace的shell操作

1、列出所有的命名空间：
答案：
```
list_namespace
1
```
2、创建命名空间ns01：
答案：
```
create_namespace 'ns01'
1
```
3、为命名空间ns01添加一个属性company为ctc
答案：
```
alter_namespace 'ns01', {METHOD => 'set', 'company' => 'ctc'}
1
```
4、列出hbase命名空间下的所有的表
答案：
```
list_namespace_tables 'hbase'
1
```
5、查看ns01命名空间的属性信息
答案：
```
describe_namespace 'ns01'
1
```
6、删除命名空间ns01
答案：
```
drop_namespace 'ns01'
1
```
第二题：table的DDL操作

1、新建一个以命名空间ns01的表mytable01，列族为cf1。
答案：
```
create_namespace 'ns01'
create 'ns01:mytable01', 'cf1'
1
2
```
2、查看命名空间ns01中mytable01表的列族的信息
答案：
```
describe 'ns01:mytable01'
1
```
3、为表命名空间ns01中mytable01追加两个列族 f1,f2
答案：
```
alter 'ns01:mytable01', 'f1', 'f2'
1
```
4、为表命名空间ns01中mytable01删除列族f1和f2
答案：
```
alter 'ns01:mytable01',{NAME=>'f1',METHOD=>'delete'},{NAME=>'f2',METHOD=>'delete'}
1
```
或者一个一个删除
```
alter 'ns01:mytable01','delete'=>'f1'
alter 'ns01:mytable01','delete'=>'f2'
1
2
```
5、清空命名空间ns01中mytable01表
答案：
```
truncate 'ns01:mytable01'
1
```
6、删除命名空间ns01中mytable01表
答案：
```
disable 'ns01:mytable01'
drop 'ns01:mytable01'
1
2
```
第三题：table的CRUD操作

1、写一个建表语句，命名空间ns01，表名student, 列族base_info的版本数为3个, 列族score的版本数为5个，列族address版本数为5个
答案：
```
create 'ns01:student', {NAME => 'base_info', VERSIONS => 3}, {NAME => 'score', VERSIONS => 5}, {NAME => 'address', VERSIONS => 5}
1
```
2、将以下数据添加到student表(请放到相应的列族中)

答案：
```
put 'ns01:student','202201010001','base_info:name','zhaoyun'
put 'ns01:student','202201010001','base_info:age',23
put 'ns01:student','202201010001','base_info:gender','m'
put 'ns01:student','202201010001','score:math',90
put 'ns01:student','202201010001','score:chinese',89
put 'ns01:student','202201010001','score:english',100
put 'ns01:student','202201010001','address:provinces','hlj'
put 'ns01:student','202201010001','address:city','habin'
put 'ns01:student','202201010001','address:street','pudonglu'

put 'ns01:student','202201010002','base_info:name','zhangfei'
put 'ns01:student','202201010002','base_info:age',24
put 'ns01:student','202201010002','base_info:gender','f'
put 'ns01:student','202201010002','score:math',80
put 'ns01:student','202201010002','score:chinese',78
put 'ns01:student','202201010002','score:english',90
put 'ns01:student','202201010002','address:provinces','hebei'
put 'ns01:student','202201010002','address:city','shijiazhuang'
put 'ns01:student','202201010002','address:street','tianyulu'

put 'ns01:student','202201010003','base_info:name','guanyu'
put 'ns01:student','202201010003','address:provinces','jilin'
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
```
3、查询student表中的所有数据
答案：
```
scan 'ns01:student'
1
```
4、查询每个人的姓名和所有成绩
答案：
```
scan 'ns01:student', {COLUMNS => ['base_info:name', 'score']}
1
```
5、查询202201010002的地址信息
答案：
```
get 'ns01:student', '202201010002', 'address'
1
```
6、修改202201010002的name为zhangfei1，再次修改name为zhangfei2
答案：
```
put 'ns01:student', '202201010002', 'base_info:name', 'zhangfei1'
put 'ns01:student', '202201010002', 'base_info:name', 'zhangfei2'
1
2
```
7、删除202201010002的name的最旧的两个版本
```
 get 'ns01:student', {COLUMN => 'base_info:name',VERSIONS => 3}
1
```
答案：
```
delete 'ns01:student', '202201010002', 'base_info:name', 1655940738745
1
```
删除倒数第二个旧的
```
delete 'ns01:student', '202201010002', 'base_info:name', 1655940826078
1
```
8、删除第三行记录
```
答案：deleteall 'ns01:student', '201901010003'
1
```
9、如何删除命名空间ns01中student表中的所有记录
```
答案：`truncate 'ns01:student'`
1
```
第5节 HBase进阶

 3.1 架构原理

1）StoreFile
保存实际数据的物理文件，StoreFile以HFile的形式存储在HDFS上。每个Store会有一个或多个StoreFile（HFile），数据在每个StoreFile中都是有序的。
2）MemStore
写缓存，由于HFile中的数据要求是有序的，所以数据是先存储在MemStore中，排好序后，等到达刷写时机才会刷写到HFile，每次刷写都会形成一个新的HFile。
3）WAL
由于数据要经MemStore排序后才能刷写到HFile，但把数据保存在内存中会有很高的概率导致数据丢失，为了解决这个问题，数据会先写在一个叫做Write-Ahead logfile的文件中，然后再写入MemStore中。所以在系统出现故障的时候，数据可以通过这个日志文件重建。

3.2写流程

写流程：
（1）Client先访问zookeeper，获取hbase:meta表位于哪个Region Server。
（2）访问对应的Region Server，获取hbase:meta表，根据读请求的namespace:table/rowkey，查询出目标数据位于哪个Region Server中的哪个Region中。并将该table的region信息以及meta表的位置信息缓存在客户端的meta cache，方便下次访问。
（3）与目标Region Server进行通讯；
（4）将数据顺序写入（追加）到WAL；
（5）将数据写入对应的MemStore，数据会在MemStore进行排序；
（6）向客户端发送ack；
（7）等达到MemStore的刷写时机后，将数据刷写到HFile。

3.3 MemStore Flush

MemStore刷写时机：
```
1.当某个memstroe的大小达到了hbase.hregion.memstore.flush.size（默认值128M），其所在region的所有memstore都会刷写。
当memstore的大小达到了
hbase.hregion.memstore.flush.size（默认值128M）
* hbase.hregion.memstore.block.multiplier（默认值4）
时，会阻止继续往该memstore写数据。

2.当region server中memstore的总大小达到
java_heapsize
*hbase.regionserver.global.memstore.size（默认值0.4）
*hbase.regionserver.global.memstore.size.lower.limit（默认值0.95），
region会按照其所有memstore的大小顺序（由大到小）依次进行刷写。直到region server中所有memstore的总大小减小到上述值以下。
当region server中memstore的总大小达到
java_heapsize*hbase.regionserver.global.memstore.size（默认值0.4）
时，会阻止继续往所有的memstore写数据。

3. 到达自动刷写的时间，也会触发memstore flush。自动刷新的时间间隔由该属性进行配置hbase.regionserver.optionalcacheflushinterval（默认1小时）。

4.当WAL文件的数量超过hbase.regionserver.max.logs，region会按照时间顺序依次进行刷写，直到WAL文件数量减小到hbase.regionserver.max.log以下（该属性名已经废弃，现无需手动设置，最大值为32）。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
```
3.4 读流程

读流程
（1）Client先访问zookeeper，获取hbase:meta表位于哪个Region Server。
（2）访问对应的Region Server，获取hbase:meta表，根据读请求的namespace:table/rowkey，查询出目标数据位于哪个Region Server中的哪个Region中。并将该table的region信息以及meta表的位置信息缓存在客户端的meta cache，方便下次访问。

（3）与目标Region Server进行通讯；
（4）分别在Block Cache（读缓存），MemStore和Store File（HFile）中查询目标数据，并将查到的所有数据进行合并。此处所有数据是指同一条数据的不同版本（time stamp）或者不同的类型（Put/Delete）。
（5）将从文件中查询到的数据块（Block，HFile数据存储单元，默认大小为64KB）缓存到Block Cache。
（6）将合并后的最终结果返回给客户端。
相关阅读:
Github每日精选（第69期）：觉得Macos状态栏图标太多试试-hidden
rust变量
 cd的奇特用法
 数据库(二)
【Javascript】设计模式之单例模式
 剑指offer(C++)-JZ31：栈的压入、弹出序列(数据结构-队列 & 栈)
如何把PDF文档转换成Word格式呢?
redis的常用基础类型及操作
 构造函数与原型对象
 Apifox 关于token的使用方式
原文地址：https://blog.csdn.net/u013621398/article/details/125425606

1学员答疑

1 下载module.tar

2 使用git

第3天

第1节 HBase简介

1.1 HBase定义

1.2 HBase数据模型

1.2.1 HBase逻辑结构

1.2.2 HBase物理存储结构

1.2.3 数据模型

1.3 HBase基本架构：

第2节 HBase安装部署(单机版)

2.1 HBase的解压

2.2 配置环境变量

2.3 HBase的配置文件

2.4 HBase服务的启动

2.5进入shell

第2节 HBase集群安装部署（集群，了解）

2.1 Zookeeper正常部署

2.2 Hadoop正常部署

2.3 HBase的解压

2.5 HBase远程发送到其他集群

2.6 HBase服务的启动

2.7 查看HBase页面

第3节 HBase Shell操作

3.1 基本操作

3.2 表的操作

第4节《HBase实操练习题》

第一题：namespace的shell操作

第二题：table的DDL操作

第三题：table的CRUD操作

第5节 HBase进阶

3.1 架构原理

3.2写流程

3.3 MemStore Flush

3.4 读流程