Spark：将 Scala ML 模型加载到 PySpark

Question

我在 scala Spark 中训练了一个 LDA 模型。

val lda = new LDA().setK(k).setMaxIter(iter).setFeaturesCol(colnames).fit(data)

lda.save(path)

我检查了我保存的模型，它包含两个文件夹：元数据和数据。

但是，当我尝试将此模型加载到 PySpark 中时，我收到一条错误消息：

model = LDAModel.load(sc, path = path) 


File "/Users/hongbowang/spark-2.2.0-bin-hadoop2.7/python/lib/py4j-
0.10.4-src.zip/py4j/protocol.py", line 319, in get_return_value
py4j.protocol.Py4JJavaError: An error occurred while calling 
o33.loadLDAModel.
: org.apache.hadoop.mapred.InvalidInputException: Input path does not 
exist:file:/Users/hongbowang/Personal/Spark%20Program/Spark%20Project/
T1/output_K20_topic/lda/metadata

有人知道我该如何解决吗？非常感谢~!

Answer 1

您保存了 ml.clustering.LDAModel 但您尝试使用 mllib.clustering.LDAModel 阅读。您应该导入正确的 LDAModel。对于本地模型：

from pyspark.ml.clustering import LocalLDAModel

LocalLDAModel.load(path)

对于分布式模型：

from pyspark.ml.clustering import DistributedLDAModel

DistributedLDAModel.load(path)

Spark：将 Scala ML 模型加载到 PySpark

Spark: Load Scala ML model to PySpark

apache-spark

pyspark

apache-spark-ml

apache-spark-mllib