Apache Spark 如何存储沿袭？

How does Apache Spark store lineages?

apache-spark
rdd

Apache spark 声称它将存储谱系而不是 RDD 本身，以便在出现故障时可以重新计算。我想知道它是如何存储谱系的？例如，RDD 可以由一堆用户提供的转换函数组成，所以它存储 "source code of those user provided functions" ?

稍微简化一下 RDDs 是描述谱系的递归数据结构。每个 RDD 在特定上下文中都有 a set of dependencies and it is computed。传递给 Spark 操作和转换的函数是 first-class 个对象，可以作为闭包的一部分进行存储、分配、传递和捕获，并且没有理由（更不用说手段）存储源代码.

RDD属于Driver，不等同于数据。当在 worker 上访问数据时，RDD 早已不复存在，唯一重要的是给定的任务。

Apache Spark 如何存储沿袭？

How does Apache Spark store lineages?

apache-spark

rdd