使用 Scikit 确定新文档的集群

Determine the cluster for a new document with Scikit

我已经在 scikit 中实现了 k-means 算法。因此,我将历史文献归类。现在,对于一个新文档,我想确定集群。 如何确定新文档的集群?

假设您使用以下方法构建分类器:

km = KMeans()
km.fit(X)

如果您有 X_new_sampleX 具有相同的向量格式,您可以使用 predict() 来识别 X_new_sample 中的每一行属于哪个簇。

km.predict(X_new_sample)