• 大数据培训MR支持的压缩编码


    MR支持的压缩编码

    表4-7

    压缩格式hadoop自带?算法文件扩展名是否可切分换成压缩格式后,原来的程序是否需要修改
    DEFLATE是,直接使用DEFLATE.deflate和文本处理一样,不需要修改
    Gzip是,直接使用DEFLATE.gz和文本处理一样,不需要修改
    bzip2是,直接使用bzip2.bz2和文本处理一样,不需要修改
    LZO否,需要安装LZO.lzo需要建索引,还需要指定输入格式
    Snappy否,需要安装Snappy.snappy和文本处理一样,不需要修改

    大数据培训

    为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器,如下表所示。

    表4-8

    压缩格式对应的编码/解码器
    DEFLATEorg.apache.hadoop.io.compress.DefaultCodec
    gziporg.apache.hadoop.io.compress.GzipCodec
    bzip2org.apache.hadoop.io.compress.BZip2Codec
    LZOcom.hadoop.compression.lzo.LzopCodec
    Snappyorg.apache.hadoop.io.compress.SnappyCodec

    大数据培训

    压缩性能的比较

    表4-9

    压缩算法原始文件大小压缩文件大小压缩速度解压速度
    gzip8.3GB1.8GB17.5MB/s58MB/s
    bzip28.3GB1.1GB2.4MB/s9.5MB/s
    LZO8.3GB2.9GB49.3MB/s74.6MB/s

    大数据培训

    snappy | A fast compressor/decompressor

    On a single core of a Core i7 processor in 64-bit mode, Snappy compresses at about 250 MB/sec or more and decompresses at about 500 MB/sec or more.

  • 相关阅读:
    蓝桥等考C++组别八级003
    Unity中URP实现水体(水下的扭曲)
    C. Card Game
    第四章 基本能力
    Java内存模型
    QtDay4
    利用小红书笔记API:为你的应用注入新活力
    java Optional操作
    软件测试/测试开发/人工智能丨聊聊AutoGPT那些事儿
    Kafka必问面试题
  • 原文地址:https://blog.csdn.net/zjjcchina/article/details/127887561