训练好的分类模型可以存储在 Apache Spark 中吗？

Question

我将使用 Apache Spark（或 Hahoop 中的 Mahout）在一堆训练文档上训练朴素贝叶斯分类器。当我收到要分类的新文档时，我想使用这个模型。我想知道是否有可能在训练时存储模型，然后在另一个 Spark 作业中加载它？

Answer 1

model.save(sc, "myModelPath")
val sameModel = NaiveBayesModel.load(sc, "myModelPath")

Answer 2

在 Mahout 的 MapReduce 支持的 NaiveBayes 中，如果通过 CLI 进行训练，模型将保存到 -o 参数指定的目录中：

mahout trainnb
  -i ${PATH_TO_TFIDF_VECTORS} 
  -o ${"path/to/model}/model 
  -li ${PATH_TO_MODEL}/labelindex 
  -ow 
  -c

并通过以下方式检索：

NaiveBayesModel model = NaiveBayesModel.materialize(("/path/to/model"), getConf());

或者，使用 Mahout-Samsara 的 Spark 支持的朴素贝叶斯，可以从命令行训练模型，并将类似地输出到 -o 参数指定的路径：

mahout spark-trainnb
  -i ${PATH_TO_TFIDF_VECTORS} 
  -o ${/path/to/model}
  -ow 
  -c

或者可以通过以下方式从应用程序中训练模型：

val model = SparkNaiveBayes.train(aggregatedObservations, labelIndex, false)

通过以下方式输出到 (HD)FS：

model.dfsWrite("/path/to/model")

并通过以下方式检索：

val retrievedModel =  NBModel.dfsRead("/path/to/model")

can a trained classification model be stored in Apache Spark?