如何在spark中缓存随机森林模型

how to cache random forest models in spark

我的平台是spark 2.1.0，使用python语言。

现在我有大约 100 个随机森林多分类模型，我将它们保存在 HDFS.There 中，HDFS 中也保存了 100 个数据集。我想使用相应的预测数据集 model.If 模型和数据集缓存在内存中，预测速度将快 10 倍以上。

但我不知道如何缓存模型，因为模型不是 RDD 或 Dataframe。

谢谢！

TL;DR 只是 cache 数据，如果它曾在预测过程之外重复使用，如果没有，您甚至可以跳过它。

RandomForestModel 是一个不受分布式数据结构支持的本地对象，没有 DAG 需要重新计算，预测过程是一个简单的、仅限地图的工作。因此模型不能被缓存，即使可以，操作也没有意义。

另见 (Why) do we need to call cache or persist on a RDD