集群模式下没有 HDFS 的 Spark:哪些数据存储在哪里?
Spark without HDFS in cluster mode: Which data is stored where?
我在集群模式下使用不带 HDFS 的 Spark 1.5 来构建应用程序。我想知道,在进行保存操作时,例如,
df.write.parquet("...")
哪些数据存储在哪里?是所有数据都存储在 master 上,还是每个 worker 存储其本地数据?
一般来说,所有工作节点都将写入其本地文件系统,驱动程序仅写入 _SUCCESS
文件。
我在集群模式下使用不带 HDFS 的 Spark 1.5 来构建应用程序。我想知道,在进行保存操作时,例如,
df.write.parquet("...")
哪些数据存储在哪里?是所有数据都存储在 master 上,还是每个 worker 存储其本地数据?
一般来说,所有工作节点都将写入其本地文件系统,驱动程序仅写入 _SUCCESS
文件。