如何在spark中缓存随机森林模型

how to cache random forest models in spark

我的平台是spark 2.1.0,使用python语言。

现在我有大约 100 个随机森林多分类模型,我将它们保存在 HDFS.There 中,HDFS 中也保存了 100 个数据集。 我想使用相应的预测数据集 model.If 模型和数据集缓存在内存中,预测速度将快 10 倍以上。

但我不知道如何缓存模型,因为模型不是 RDD 或 Dataframe。

谢谢!

TL;DR 只是 cache 数据,如果它曾在预测过程之外重复使用,如果没有,您甚至可以跳过它。

RandomForestModel 是一个不受分布式数据结构支持的本地对象,没有 DAG 需要重新计算,预测过程是一个简单的、仅限地图的工作。因此模型不能被缓存,即使可以,操作也没有意义。

另见 (Why) do we need to call cache or persist on a RDD