提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
多表联查–07— Hash join






如果null值得数据,是业务需要的, 那么有可能实际跑MR任务的时候会造成数据倾斜


随机分布空 null 值


如果2个表join,都是数据量特表大的表, 化大为小, 用join 字段进行分桶拆分,效率会高很多


创建分通表 桶的个数不要超过可用 CPU的核数






默认情况下,Map阶段同一 key数据分发给一个reduce,当一个key数据过大时就倾斜了











案例1 的执行计划,会先对b表和o表进行id字段过滤,再表关联.
因为框架底层优化器,发现where过滤条件id,正好是表的关联字段 id. 所以会进行谓词下推的优化