spark sql保存hive表时的压缩设置

根据查看spark sql源码(3.1.3)的源码，找到hive表输出文件压缩格式的设定方式：

结论：

1. 如果hive输出表的属性里定义了压缩格式，则直接使用表定义的格式，具体属性为：

文件输出格式	表属性
text	compression
csv	compression > codec
json	compression
parquet	compression > parquet.compression
orc	compression > orc.compress

2. 如果hive输出表的属性里没有定义压缩格式，则以配置项的设置为准，具体为：

文件输出格式	配置项
orc	spark.sql.orc.compression.codec 可用值："none", "uncompressed", "snappy", "zlib", "lzo"
parquet	spark.sql.parquet.compression.codec 可用值："none", "uncompressed", "snappy", "gzip", "lzo", "lz4", "brotli", "zstd"
orc,parquet以外	hive.exec.compress.output 可用值："true","false" mapreduce.output.fileoutputformat.compress.codec 可用值：压缩编码类名，例如："org.apache.hadoop.io.compress.GzipCodec" mapreduce.output.fileoutputformat.compress.type 可用值："RECORD","BLOCK","NONE"

文件输出格式

配置项

orc

spark.sql.orc.compression.codec

可用值："none", "uncompressed", "snappy", "zlib", "lzo"

parquet

spark.sql.parquet.compression.codec

可用值："none", "uncompressed", "snappy", "gzip", "lzo", "lz4", "brotli", "zstd"

orc,parquet以外

hive.exec.compress.output

可用值："true","false"
mapreduce.output.fileoutputformat.compress.codec
可用值：压缩编码类名，例如："org.apache.hadoop.io.compress.GzipCodec"
mapreduce.output.fileoutputformat.compress.type

可用值："RECORD","BLOCK","NONE"