Apache Spark 如何存储沿袭?
How does Apache Spark store lineages?
Apache spark 声称它将存储谱系而不是 RDD 本身,以便在出现故障时可以重新计算。我想知道它是如何存储谱系的?例如,RDD 可以由一堆用户提供的转换函数组成,所以它存储 "source code of those user provided functions" ?
稍微简化一下 RDDs
是描述谱系的递归数据结构。每个 RDD
在特定上下文中都有 a set of dependencies and it is computed
。传递给 Spark 操作和转换的函数是 first-class 个对象,可以作为闭包的一部分进行存储、分配、传递和捕获,并且没有理由(更不用说手段)存储源代码.
RDD属于Driver
,不等同于数据。当在 worker 上访问数据时,RDD 早已不复存在,唯一重要的是给定的任务。
Apache spark 声称它将存储谱系而不是 RDD 本身,以便在出现故障时可以重新计算。我想知道它是如何存储谱系的?例如,RDD 可以由一堆用户提供的转换函数组成,所以它存储 "source code of those user provided functions" ?
稍微简化一下 RDDs
是描述谱系的递归数据结构。每个 RDD
在特定上下文中都有 a set of dependencies and it is computed
。传递给 Spark 操作和转换的函数是 first-class 个对象,可以作为闭包的一部分进行存储、分配、传递和捕获,并且没有理由(更不用说手段)存储源代码.
RDD属于Driver
,不等同于数据。当在 worker 上访问数据时,RDD 早已不复存在,唯一重要的是给定的任务。