• Hive的基本知识与操作


    Hive的基本知识与操作

    Hive的基本概念

    Hive本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据存储,说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更近一步说hive就是一个MapReduce客户端。

    image-20220531221835408

    为什么使用Hive?

    如果直接使用hadoop的话,人员学习成本太高,项目要求周期太短,MapReduce实现复杂查询逻辑开发难度太大。如果使用hive的话,可以操作接口采用类SQL语法,提高开发能力,免去了写MapReduce,减少开发人员学习成本,功能扩展很方便(比如:开窗函数)。

    Hive的特点:

    1、可扩展性

    ​ Hive可以自由的扩展集群的规模,一般情况下不需要重启服务

    2、延申性

    ​ Hive支持自定义函数,用户可以根据自己的需求来实现自己的函数

    3、容错

    ​ 即使节点出现错误,SQL仍然可以完成执行

    Hive的优缺点:

    优点:

    ​ 1、操作接口采用类sql语法,提供快速开发的能力(简单、容易上手)

    ​ 2、避免了去写MapReduce,减少开发人员的学习成本

    ​ 3、Hive的延迟性比较高,因此Hive常用于数据分析,适用于对实时性要求不高的场合

    ​ 4、Hive 优势在于处理大数据,对于处理小数据没有优势,因为 Hive 的执行延迟比较高。(不断地开关JVM虚拟机)

    ​ 5、Hive 支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。

    ​ 6、集群可自由扩展并且具有良好的容错性,节点出现问题SQL仍可以完成执行

    缺点:

    ​ 1、Hive的HQL表达能力有限

    ​ (1)迭代式算法无法表达 (反复调用,mr之间独立,只有一个map一个reduce,反复开关)

    ​ (2)数据挖掘方面不擅长

    ​ 2、Hive 的效率比较低

    ​ (1)Hive 自动生成的 MapReduce 作业,通常情况下不够智能化

    ​ (2)Hive 调优比较困难,粒度较粗 (hql根据模板转成mapreduce,不能像自己编写mapreduce一样精细,无法控制在map处理数据还是在reduce处理数据)

    Hive应用场景

    日志分析:大部分互联网公司使用hive进行日志分析,如百度、淘宝等。

    统计一个网站一个时间段内的PV(页面浏览量)UV(统计一天内某站点的用户数)SKUSPU

    Hive架构

    image-20220531214038409

    Client

    Hive允许client连接的方式有三个CLI(hive shell)、JDBC/ODBC(java访问hive)、WEBUI(浏览器访问 hive)。JDBC访问时中间件Thrift软件框架,跨语言服务开发。DDL DQL DML,整体仿写一套SQL语句。

    ​ 1)client–需要下载安装包

    ​ 2)JDBC/ODBC 也可以连接到Hive
    ​ 现在主流都在倡导第二种 HiveServer2/beeline
    ​ 做基于用户名和密码安全的一个校验

    ​ 3)Web Gui
    ​ hive给我们提供了一套简单的web页面
    ​ 我们可以通过这套web页面访问hive 做的太简陋了

    Metastore(元数据)

    元数据包括表名、表所属的数据库(默认是default)、表的拥有者、列/分区字段、表的类型(是否是 外部表)、表的数据所在目录等。

    ​ 一般需要借助于其他的数据载体(数据库)

    ​ 主要用于存放数据库的建表语句等信息

    ​ 推荐使用Mysql数据库存放数据

    ​ 连接数据库需要提供:uri username password driver

    sql语句是如何转化成MR任务的?

    元数据存储在数据库中,默认存在自带的derby数据库(单用户局限性)中,推荐使用Mysql进行存储。

    ​ 1) 解析器(SQL Parser):将SQL字符串转换成抽象语法树AST,这一步一般都用第三方工具库完 成,比如ANTLR;对AST进行语法分析,比如表是否存在、字段是否存在、SQL语义是否有误。

    ​ 2) 编译器(Physical Plan):将AST编译生成逻辑执行计划。

    ​ 3) 优化器(Query Optimizer):对逻辑执行计划进行优化。

    ​ 4) 执行器(Execution):把逻辑执行计划转换成可以运行的物理计划。对于Hive来说,就是 MR/Spark。

    数据处理

    Hive的数据存储在HDFS中,计算由MapReduce完成。HDFS和MapReduce是源码级别上的整合,两者结合最佳。解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。

    Hive的三种交互方式

    第一种交互方式

    shell交互Hive,用命令hive启动一个hive的shell命令行,在命令行中输入sql或者命令来和Hive交互。

    服务端启动metastore服务(后台启动):nohup hive --service metastore >/dev/null &
    进入命令:hive
    退出命令行:quit;
    

    第二种交互方式

    Hive启动为一个服务器,对外提供服务,其他机器可以通过客户端通过协议连接到服务器,来完成访问操作,这是生产环境用法最多的

    服务端启动hiveserver2服务:
    nohup hive --service metastore >/dev/null &
    nohup hiveserver2 >/dev/null &
    
    需要稍等一下,启动服务需要时间:
    进入命令:1)先执行: beeline ,再执行: !connect jdbc:hive2://master:10000 
            2)或者直接执行:  beeline -u jdbc:hive2://master:10000 -n root
    退出命令行:!exit
    

    第三种交互方式

    使用 –e 参数来直接执行hql的语句

    bin/hive -e "show databases;"
    

    使用 –f 参数通过指定文本文件来执行hql的语句

    特点:执行完sql后,回到linux命令行。

    创建一个sql文件:vim hive.sql
    里面写入要执行的sql命令
    use myhive;
    select * from test;
    
    hive -f hive.sql
    

    Hive元数据

    Hive元数据库中一些重要的表结构及用途,方便Impala、SparkSQL、Hive等组件访问元数据库的理解。

    1、存储Hive版本的元数据表(VERSION),该表比较简单,但很重要,如果这个表出现问题,根本进不来Hive-Cli。比如该表不存在,当启动Hive-Cli的时候,就会报错“Table 'hive.version' doesn't exist”

    2、Hive数据库相关的元数据表(DBS、DATABASE_PARAMS)

    ​ DBS:该表存储Hive中所有数据库的基本信息。

    ​ DATABASE_PARAMS:该表存储数据库的相关参数。

    3、Hive表和视图相关的元数据表

    ​ 主要有TBLS、TABLE_PARAMS、TBL_PRIVS,这三张表通过TBL_ID关联。
    ​ TBLS:该表中存储Hive表,视图,索引表的基本信息。
    ​ TABLE_PARAMS:该表存储表/视图的属性信息。
    ​ TBL_PRIVS:该表存储表/视图的授权信息。
    4、Hive文件存储信息相关的元数据表

    ​ 主要涉及SDS、SD_PARAMS、SERDES、SERDE_PARAMS,由于HDFS支持的文件格式很多,而建Hive表时候也可以指定各种文件格式,Hive在将HQL解析成MapReduce时候,需要知道去哪里,使用哪种格式去读写HDFS文件,而这些信息就保存在这几张表中。
    ​ SDS:该表保存文件存储的基本信息,如INPUT_FORMAT、OUTPUT_FORMAT、是否压缩等。TBLS表中的SD_ID与该表关联,可以获取Hive表的存储信息。
    ​ SD_PARAMS: 该表存储Hive存储的属性信息。
    ​ SERDES:该表存储序列化使用的类信息。
    ​ SERDE_PARAMS:该表存储序列化的一些属性、格式信息,比如:行、列分隔符。
    5、Hive表字段相关的元数据表

    ​ 主要涉及COLUMNS_V2:该表存储表对应的字段信息。

    Hive的基本操作

    创建数据库

    数据库在hdfs上的默认路径是/hive/warehouse/*.db

    create database testdb;
    

    避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法)

    create database if not exists testdb;
    

    创建数据库并指定位置

    create database if not exists testdb location '/testdb.db';
    

    修改数据库

    数据库的其他元数据信息都是不可更改的,包括数据库名和数据库所在的目录位置。

    alter database dept set dbproperties('createtime'='20220531');为数据库的DBPROPERTIES设置键值对属性值
    

    查看数据库详细信息

    显示数据库

    show databases;
    

    通过like过滤显示数据库

    show datebases like '*t*';(这里是*sql里是%)
    

    查看数据库详情

    desc database testdb;
    

    切换数据库

    use testdb;
    

    删除数据库

    最简写法

    drop database testdb;
    

    如果删除的数据库不存在,最好使用if exists判断数据库是否存在。否则会报错:FAILED: SemanticException [Error 10072]: Database does not exist: db_hive

    drop database if exists testdb;
    

    如果数据库不为空,使用cascade命令进行强制删除。报错信息如下FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. InvalidOperationException(message:Database db_hive is not empty. One or more tables exist.)

    drop database if exists testdb cascade;
    

    Hive的数据类型

    基础数据类型

    类型 Java数据类型 描述
    TINYINT byte 8位有符号整型。取值范围:-128~127。
    SMALLINT short 16位有符号整型。取值范围:-32768~32767。
    INT int 32位有符号整型。取值范围:-2 31 ~2 31 -1。
    BIGINT long 64位有符号整型。取值范围:-2 63 +1~2 63 -1。
    BINARY 二进制数据类型,目前长度限制为8MB。
    FLOAT float 32位二进制浮点型。
    DOUBLE double 64位二进制浮点型。
    DECIMAL(precision,scale) 10进制精确数字类型。precision:表示最多可以表示多少位的数字。取值范围:1 <= precision <= 38。scale:表示小数部分的位数。取值范围: 0 <= scale <= 38。如果不指定以上两个参数,则默认为decimal(10,0)。
    VARCHAR(n) 变长字符类型,n为长度。取值范围:1~65535。
    CHAR(n) 固定长度字符类型,n为长度。最大取值255。长度不足则会填充空格,但空格不参与比较。
    STRING string 字符串类型,目前长度限制为8MB。
    DATE 日期类型,格式为yyyy-mm-dd。取值范围:0000-01-01~9999-12-31。
    DATETIME 日期时间类型。取值范围:0000-01-01 00:00:00.000~9999-12-31 23.59:59.999,精确到毫秒。
    TIMESTAMP 与时区无关的时间戳类型。取值范围:0000-01-01 00:00:00.000000000~9999-12-31 23.59:59.999999999,精确到纳秒。说明 对于部分时区相关的函数,例如cast( as string),要求TIMESTAMP按照与当前时区相符的方式来展现。
    BOOLEAN boolean BOOLEAN类型。取值:True、False。

    复杂的数据类型

    类型 定义方法 构造方法
    ARRAY array``array> array(1, 2, 3)``array(array(1, 2), array(3, 4))
    MAP map``map> map(“k1”, “v1”, “k2”, “v2”)``map(1S, array(‘a’, ‘b’), 2S, array(‘x’, ‘y’))
    STRUCT structstruct, field3:map> named_struct(‘x’, 1, ‘y’, 2)named_struct(‘field1’, 100L, ‘field2’, array(1, 2), ‘field3’, map(1, 100, 2, 200))

    Hive有三种复杂数据类型ARRAY、MAP 和 STRUCT。ARRAY和MAP与Java中的Array和Map类似,而STRUCT与C语言中的Struct类似,它封装了一个命名字段集合,复杂数据类型允许任意层次的嵌套。还有一个uniontype< 所有类型,所有类型… > 。

    ​ 数组:array< 所有类型 >;
    ​ Map < 基本数据类型,所有数据类型 >;
    ​ struct < 名:所有类型[注释] >;
    ​ uniontype< 所有类型,所有类型… >

    Hive的文件格式

    Hive没有专门的数据文件格式,常见的有以下几种:

    TEXTFILE:Hive默认文件存储格式
    SEQUENCEFILE
    AVRO
    RCFILE:列文件格式,能够很好的压缩和快速查询性能
    ORCFILE:很高的压缩比,能很大程度的节省存储和计算资源,但它在读写时候需要消耗额外的CPU资源来压缩和解压缩
    PARQUET

    Hive的表操作

    创建表

    CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name 
    [(col_name data_type [COMMENT col_comment], ...)] 
    [COMMENT table_comment] 
    [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] 
    [CLUSTERED BY (col_name, col_name, ...) 
    [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] 
    [ROW FORMAT row_format] 
    [STORED AS file_format] 
    [LOCATION hdfs_path]
    
    
    字段解释说明:
    - CREATE TABLE 
    	创建一个指定名字的表。如果相同名字的表已经存在,则抛出异常;用户可以用 IF NOT EXISTS 选项来忽略这个异常。
    
    - EXTERNAL
    	关键字可以让用户创建一个外部表,在建表的同时指定一个指向实际数据的路径(LOCATION)
    	创建内部表时,会将数据移动到数据仓库指向的路径(默认位置);
    	创建外部表时,仅记录数据所在的路径,不对数据的位置做任何改变。在
    	删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。
    
    - COMMENT:
    	为表和列添加注释。
    
    - PARTITIONED BY
    	创建分区表
    
    - CLUSTERED BY
    	创建分桶表
    
    - SORTED BY
    	不常用
    
    - ROW FORMAT 
      DELIMITED [FIELDS TERMINATED BY char] [COLLECTION ITEMS TERMINATED BY char] [MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char] | SERDE serde_name [WITH SERDEPROPERTIES (property_name=property_value, property_name=property_value, ...)]
    	用户在建表的时候可以自定义SerDe或者使用自带的SerDe。
    	如果没有指定ROW FORMAT 或者ROW FORMAT DELIMITED,将会使用自带的SerDe。
    	在建表的时候,用户还需要为表指定列,用户在指定表的列的同时也会指定自定义的SerDe,Hive通过SerDe确定表的具体的列的数据。
    	SerDe是Serialize/Deserilize的简称,目的是用于序列化和反序列化。
    
    - STORED AS指定存储文件类型
    	常用的存储文件类型:SEQUENCEFILE(二进制序列文件)、TEXTFILE(文本)、RCFILE(列式存储格式文件)
    	如果文件数据是纯文本,可以使用STORED AS TEXTFILE。
    	如果数据需要压缩,使用 STORED AS SEQUENCEFILE。
    
    - LOCATION :
    	指定表在HDFS上的存储位置。
    
    - LIKE
    	允许用户复制现有的表结构,但是不复制数据。
    

    默认建表方式

    create table students
    (
        id bigint,
        name string,
        age int,
        gender string,
        clazz string
    )
    ROW FORMAT DELIMITED FIELDS TERMINATED BY ','; // 必选,指定列分隔符 
    

    指定location

    create table students2
    (
        id bigint,
        name string,
        age int,
        gender string,
        clazz string
    )
    ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
    LOCATION '/input1'; // 指定Hive表的数据的存储位置,一般在数据已经上传到HDFS,想要直接使用,会指定Location,通常Locaion会跟外部表一起使用,内部表一般使用默认的location
    

    指定存储格式

    create table students3
    (
        id bigint,
        name string,
        age int,
        gender string,
        clazz string
    )
    ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
    STORED AS rcfile; // 指定储存格式为rcfile
    如果不指定,默认为textfile,注意:除textfile以外,其他的存储格式的数据都不能直接加载,需要使用从表加载的方式。
    

    创建表并加载另一张表的所有信息

    create table students4 as select * from students2;
    

    只建表,不需要加载数据,相当于建表语句一样

    create table students5 like students;
    

    复杂人员信息表创建

    create table IF NOT EXISTS t_person(
    name string,
    friends array<string>,
    children map<string,int>,
    address structstring ,city:string>
    )
    row format delimited fields terminated by ','
    collection items terminated by '_'
    map keys terminated by ':'
    lines terminated by '\n';
    
    
    songsong,bingbing_lili,xiao song:18_xiaoxiao song:19,beng bu_anhui
    yangyang,caicai_susu,xiao yang:18_xiaoxiao yang:19,he fei_anhui
    

    显示表

    show tables;
    show tables like 'u';
    desc t_person;
    desc formatted t_person;
    

    加载数据

    1、使用 Hadoop fs -put '本地数据地址' 'hive表对应的HDFS目录下'

    load data inpath '/input1/students.txt' into table students;
    将HDFS上的/input1目录下面的数据 移动至 students表对应的HDFS目录下,注意是 移动、移动、移动
    

    2、将Linux本地目录下的文件 上传到 hive表对应HDFS 目录下 原文件不会被删除

    load data local inpath '/usr/local/soft/data/students.txt' into table students;
    

    3、覆盖加载overwrite

    load data local inpath '/usr/local/soft/data/students.txt' overwrite into table students;
    

    清空表

    truncate table students;
    

    插入表数据insert into table xxxx SQL语句 (没有as)

    将 students表的数据插入到students2 这是复制 不是移动 students表中的表中的数据不会丢失
    insert into table students2 select * from students;
    

    覆盖插入

    覆盖插入 把into 换成 overwrite
    insert overwrite table students2 select * from students;
    

    修改列

    查询表结构

    desc students2;
    

    添加列

    alter table students2 add columns (education string);
    

    查询表结构

    desc students2;
    

    更新列

    alter table stduents2 change education educationnew string;
    

    删除表

    drop table students2;
    

    Hive内部表

    创建好表的时候,HDFS会在当前表所属的库中创建一个文件夹

    当load数据的时候,就会将数据文件存放到表对应的文件夹中

    数据一旦被load,就不能被修改

    删除表的时候,表对应的文件夹会被删除,同时数据也会被删除

    默认建表的类型就是内部表

    Hive外部表

    外部表因为是指定其他的hdfs路径的数据加载到表中来,所以hive会认为自己不完全独占这份数据

    删除hive表的时候,数据仍然保存在hdfs中,不会删除。

    外部表关键字external

    一般在公司中,使用外部表多一点,因为数据可以需要被多个程序使用,避免误删,通常外部表会结合location一起使用

    外部表还可以将其他数据源中的数据 映射到 hive中,比如说:hbase,ElasticSearch......

    设计外部表的初衷就是 让 表的元数据 与 数据 解耦

    Hive导出数据

    将表中的数据备份

    • 将查询结果存放到本地
    //创建存放数据的目录
    mkdir -p /usr/local/soft/shujia
    
    //导出查询结果的数据(导出到Node01上)
    insert overwrite local directory '/usr/local/soft/shujia/person_data' select * from t_person;
    
    • 按照指定的方式将数据输出到本地
    -- 创建存放数据的目录
    mkdir -p /usr/local/soft/shujia
    
    -- 导出查询结果的数据
    insert overwrite local directory '/usr/local/soft/shujia/person' 
    ROW FORMAT DELIMITED fields terminated by ',' 
    collection items terminated by '-' 
    map keys terminated by ':' 
    lines terminated by '\n' 
    select * from t_person;
    
    • 将查询结果输出到HDFS
    -- 创建存放数据的目录
    hdfs dfs -mkdir -p /shujia/bigdata17/copy
    
    -- 导出查询结果的数据
    insert overwrite local directory '/usr/local/soft/shujia/students_data2' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' select * from students
    
    • 直接使用HDFS命令保存表对应的文件夹
    // 创建存放数据的目录
    hdfs dfs -mkdir -p /shujia/bigdata17/person
    
    // 使用HDFS命令拷贝文件到其他目录
    hdfs dfs -cp /hive/warehouse/t_person/*  /shujia/bigdata17/person
    
    • 将表结构和数据同时备份

      ​ 将数据导出到HDFS

      //创建存放数据的目录
      hdfs dfs -mkdir -p /shujia/bigdata17/copy
      
      //导出查询结果的数据
      export table t_person to '/shujia/bigdata17/copy';
      

      ​ 删除表结构

      drop table t_person;
      

      ​ 恢复表结构和数据

      import from '/shujia/bigdata17';
      

      注意:时间不同步,会导致导入导出失败

  • 相关阅读:
    VNC连接服务器实现远程桌面 --以AutoDL云服务器为例
    嵌入式Linux应用开发-第七章-RK3288和 RK3399的 LED驱动程序
    老站长带你全面认识基站和天线
    前端开发日常——CSS动画无限轮播
    Docker - 企业项目
    IC验证| Verilog语法详解之条件语句
    LeetCode 513找树左下角的值 112路径总和113路径总和ii 106从中序与后序遍历序列构造二叉树
    点击授权将用户信息存储到vuex中
    Mybatis核心对象及工作流程
    第十九章总结(绘制图片)
  • 原文地址:https://www.cnblogs.com/bfy0221/p/16667380.html