Spark RDD 谱系存储在哪里?

Where Spark RDD lineage is stored?

Spark RDD Lineage 存储在哪里?根据关于 RDD 的白皮书,它保存在内存中,但想知道它是在驱动程序端还是在集群的其他地方。

还有如何确保容错性,即默认创建多少个 RDD(元数据)副本?

我想了解不使用 persist() 方法时的核心框架行为。

RDD 谱系存在于 RDD 存在的驱动程序中。提交作业后,此信息不再相关。它是任何 RDD 的内部部分,这就是它知道 parents.

的方式

当驱动程序失败时,RDD 沿袭以及整个计算都消失了。驱动程序是……好吧……驱动程序,没有它什么都不会发生。