如何在spark中缓存随机森林模型
how to cache random forest models in spark
我的平台是spark 2.1.0,使用python语言。
现在我有大约 100 个随机森林多分类模型,我将它们保存在 HDFS.There 中,HDFS 中也保存了 100 个数据集。
我想使用相应的预测数据集 model.If 模型和数据集缓存在内存中,预测速度将快 10 倍以上。
但我不知道如何缓存模型,因为模型不是 RDD 或 Dataframe。
谢谢!
TL;DR 只是 cache
数据,如果它曾在预测过程之外重复使用,如果没有,您甚至可以跳过它。
RandomForestModel
是一个不受分布式数据结构支持的本地对象,没有 DAG
需要重新计算,预测过程是一个简单的、仅限地图的工作。因此模型不能被缓存,即使可以,操作也没有意义。
另见 (Why) do we need to call cache or persist on a RDD
我的平台是spark 2.1.0,使用python语言。
现在我有大约 100 个随机森林多分类模型,我将它们保存在 HDFS.There 中,HDFS 中也保存了 100 个数据集。 我想使用相应的预测数据集 model.If 模型和数据集缓存在内存中,预测速度将快 10 倍以上。
但我不知道如何缓存模型,因为模型不是 RDD 或 Dataframe。
谢谢!
TL;DR 只是 cache
数据,如果它曾在预测过程之外重复使用,如果没有,您甚至可以跳过它。
RandomForestModel
是一个不受分布式数据结构支持的本地对象,没有 DAG
需要重新计算,预测过程是一个简单的、仅限地图的工作。因此模型不能被缓存,即使可以,操作也没有意义。
另见 (Why) do we need to call cache or persist on a RDD