Spark - 有没有办法清理孤立的 RDD 文件和块管理器文件夹(使用 pyspark)?
Spark - Is there a way to cleanup orphaned RDD files and block manager folders (using pyspark)?
我目前 running/experimenting 在 Windows 环境中使用 Spark,并且注意到大量孤立的 blockmgr 文件夹和 rdd 文件。这些是在我没有足够的内存来缓存完整数据集时创建的。
我怀疑他们在进程失败时被抛在后面。
目前,我不时手动删除它们(当我 运行 磁盘不足 space..... )。我也玩过一个简单的文件操作脚本。
我想知道,是否有任何可用的 pyspark 函数或脚本可以清理这些,或者有什么方法可以在进程启动时检查它们?
谢谢
根据@cronoik,这是通过设置以下属性解决的:
spark.worker.cleanup.enabled true
在我的实例中,在单个节点 Windows 环境中同时使用 'local' 和 'standalone' 模式,我在 spark-defaults.conf 文件中进行了设置。
有关详细信息,请参阅文档:Spark Standalone Mode
我目前 running/experimenting 在 Windows 环境中使用 Spark,并且注意到大量孤立的 blockmgr 文件夹和 rdd 文件。这些是在我没有足够的内存来缓存完整数据集时创建的。
我怀疑他们在进程失败时被抛在后面。
目前,我不时手动删除它们(当我 运行 磁盘不足 space..... )。我也玩过一个简单的文件操作脚本。
我想知道,是否有任何可用的 pyspark 函数或脚本可以清理这些,或者有什么方法可以在进程启动时检查它们?
谢谢
根据@cronoik,这是通过设置以下属性解决的:
spark.worker.cleanup.enabled true
在我的实例中,在单个节点 Windows 环境中同时使用 'local' 和 'standalone' 模式,我在 spark-defaults.conf 文件中进行了设置。
有关详细信息,请参阅文档:Spark Standalone Mode