我们是否可以在 spark-ml/spark-mllib 中更新现有模型?

Whether we can update existing model in spark-ml/spark-mllib?

我们正在使用 spark-ml 从现有数据构建模型。每天都有新数据。

有没有办法只读取新数据更新现有模型,而不用每次都读取所有数据重新训练?

这取决于您使用的模型,但对于某些 Spark 而言,它完全可以满足您的要求 want. You can look at StreamingKMeans, StreamingLinearRegressionWithSGD, StreamingLogisticRegressionWithSGD and more broadly StreamingLinearAlgorithm

为了完成 Florent 的回答,如果您不在流上下文中,一些 Spark mllib 模型支持 initialModel 作为增量更新的起点。例如参见KMeans, or GMM