Spark - 有没有办法清理孤立的 RDD 文件和块管理器文件夹(使用 pyspark)?

Spark - Is there a way to cleanup orphaned RDD files and block manager folders (using pyspark)?

我目前 running/experimenting 在 Windows 环境中使用 Spark,并且注意到大量孤立的 blockmgr 文件夹和 rdd 文件。这些是在我没有足够的内存来缓存完整数据集时创建的。

我怀疑他们在进程失败时被抛在后面。

目前,我不时手动删除它们(当我 运行 磁盘不足 space..... )。我也玩过一个简单的文件操作脚本。

我想知道,是否有任何可用的 pyspark 函数或脚本可以清理这些,或者有什么方法可以在进程启动时检查它们?

谢谢

根据@cronoik,这是通过设置以下属性解决的:

spark.worker.cleanup.enabled true

在我的实例中,在单个节点 Windows 环境中同时使用 'local' 和 'standalone' 模式,我在 spark-defaults.conf 文件中进行了设置。

有关详细信息,请参阅文档:Spark Standalone Mode