我们是否可以在 spark-ml/spark-mllib 中更新现有模型?
Whether we can update existing model in spark-ml/spark-mllib?
我们正在使用 spark-ml 从现有数据构建模型。每天都有新数据。
有没有办法只读取新数据更新现有模型,而不用每次都读取所有数据重新训练?
这取决于您使用的模型,但对于某些 Spark 而言,它完全可以满足您的要求 want. You can look at StreamingKMeans, StreamingLinearRegressionWithSGD, StreamingLogisticRegressionWithSGD and more broadly StreamingLinearAlgorithm。
为了完成 Florent 的回答,如果您不在流上下文中,一些 Spark mllib 模型支持 initialModel
作为增量更新的起点。例如参见KMeans, or GMM。
我们正在使用 spark-ml 从现有数据构建模型。每天都有新数据。
有没有办法只读取新数据更新现有模型,而不用每次都读取所有数据重新训练?
这取决于您使用的模型,但对于某些 Spark 而言,它完全可以满足您的要求 want. You can look at StreamingKMeans, StreamingLinearRegressionWithSGD, StreamingLogisticRegressionWithSGD and more broadly StreamingLinearAlgorithm。
为了完成 Florent 的回答,如果您不在流上下文中,一些 Spark mllib 模型支持 initialModel
作为增量更新的起点。例如参见KMeans, or GMM。