reduceByKey 与 groupByKey 的区别
reduceByKey:具有预聚合操作
groupByKey:没有预聚合
在不影响业务逻辑的前提下,优先采用 reduceByKey。
reduceByKey、foldByKey、aggregateByKey、combineByKey 区
ReduceByKey 没有初始值 分区内和分区间逻辑相同
foldByKey 有初始值 分区内和分区间逻辑可以相同
aggregateByKey 有初始值 分区内和分区间逻辑可以不同
combineByKey 初始可以变化结构 分区内和分区间逻辑不同