码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Hive 常用存储、压缩格式


    1. Hive常用的存储格式

    TEXTFI
    textfile为默认存储格式
    存储方式:行存储
    磁盘开销大 数据解析开销大
    压缩的text文件 hive 无法进行合拆分

    SEQUENCEFILE
    sequencefile二进制文件,以的形式序列到文件中
    存储方式:行存储
    可以分割、压缩
    一般选择block压缩
    优势是和Hadoop api中的mapfile相互兼容的

    RCFILE
    存储方式:数据按行分块 每块按照列存储
    压缩快 快速列存取
    读记录尽量涉及到的block最少
    读取需要的列只需要读取每个row group的头部定义
    读取全量数据的操作 性能可能比sequence没有明显的优势

    ORC
    存储方式:数据按行分块,每块按照列存储
    压缩快 压缩按照列存取
    效率比rcfile高,是rcfile的改良版本

    Apache ORC
    ORC(OptimizedRC File)存储源自于RC(RecordColumnar File)这种存储格式,RC是一种列式存储引擎,
    对schema演化(修改schema需要重新生成数据)支持较差,而ORC是对RC改进,但它仍对
    schema演化支持较差,
    主要是在压缩编码,查询性能方面做了优化。RC/ORC最初是在Hive中得到使用,最后发展势头不错,独立成一个单独的项目。
    
    • 1
    • 2
    • 3
    • 4
    • 5

    PARQUET

    Apache Parquet
    源自于google Dremel系统(可下载论文参阅),Parquet相当于Google Dremel中的数据存储引擎,
    而Apache顶级开源项目Drill正是Dremel的开源实现。
    Apache Parquet 最初的设计动机是存储嵌套式数据,比如Protocolbuffer,thrift,json等,将这类数据存储成列式格式,
    以方便对其高效压缩和编码,且使用更少的IO操作取出需要的数据,
    这也是Parquet相比于ORC的优势,
    它能够透明地将Protobuf和thrift类型的数据进行列式存储,在Protobuf和thrift被广泛使用的今天,与parquet进行集成,
    是一件非容易和自然的事情。 
    除了上述优势外,相比于ORC, Parquet没有太多其他可圈可点的地方,
    比如它不支持update操作(数据写成后不可修改),不支持ACID等。
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10

    Avro格式
    自定义格式

    2. Hive压缩算法

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  • 相关阅读:
    怎样评测对比报表工具的性能?
    【深度学习&图神经网络】Node2Vec +GAT 完成 节点分类任务(含代码) | 附:其它生成节点特征向量的算法:DeepWalk、LINE(具体实现细节)、SDNE、MMDW
    windows 使用VMware 从零搭建hadoop集群
    一个关于CSDN资源定价的问题。
    flutter 时间戳转日期
    二十三种设计模式:解密职责链模式-购物优惠活动的设计艺术
    [附源码]Python计算机毕业设计Django驾校预约管理系统
    LeetCode-1. Two Sum
    牛客Top101 JS合并两个排序的列表
    SpringBoot + Prometheus + Grafana 打造可视化监控
  • 原文地址:https://blog.csdn.net/dgssd/article/details/134314815
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号