RDD只支持粗粒度转换,即在大量记录上执行的单个操作。将RDD的一系列Lineage(血统)记录下来,以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为,当该RDD的部分分区数据丢失时,他可以根据这些信息来重新运算和恢复丢失的数据分区。
这里所谓的依赖关系,其实就是两个相邻RDD之间的关系
窄依赖表示每一个父RDD的Partition最多被子RDD的一个Partition使用,窄依赖我们形象的比喻为独生子女。
宽依赖表示同一个父RDD的Partition被多个子RDD的Partititon依赖,会引起Shuffle。宽依赖形象的比喻为多生。
DAG(Directed Acyclic Graph)有向无环图是由点和线组成的拓扑图形,该图形具有方向,不会闭环。
RDD任务切分中间分为:Application、Job、Stage和Task