Spark RDD 谱系存储在哪里?
Where Spark RDD lineage is stored?
Spark RDD Lineage 存储在哪里?根据关于 RDD 的白皮书,它保存在内存中,但想知道它是在驱动程序端还是在集群的其他地方。
还有如何确保容错性,即默认创建多少个 RDD(元数据)副本?
我想了解不使用 persist() 方法时的核心框架行为。
RDD 谱系存在于 RDD 存在的驱动程序中。提交作业后,此信息不再相关。它是任何 RDD 的内部部分,这就是它知道 parents.
的方式
当驱动程序失败时,RDD 沿袭以及整个计算都消失了。驱动程序是……好吧……驱动程序,没有它什么都不会发生。
Spark RDD Lineage 存储在哪里?根据关于 RDD 的白皮书,它保存在内存中,但想知道它是在驱动程序端还是在集群的其他地方。
还有如何确保容错性,即默认创建多少个 RDD(元数据)副本?
我想了解不使用 persist() 方法时的核心框架行为。
RDD 谱系存在于 RDD 存在的驱动程序中。提交作业后,此信息不再相关。它是任何 RDD 的内部部分,这就是它知道 parents.
的方式当驱动程序失败时,RDD 沿袭以及整个计算都消失了。驱动程序是……好吧……驱动程序,没有它什么都不会发生。