使用 Scikit 确定新文档的集群

Question

我已经在 scikit 中实现了 k-means 算法。因此，我将历史文献归类。现在，对于一个新文档，我想确定集群。如何确定新文档的集群？

Answer 1

假设您使用以下方法构建分类器：

km = KMeans()
km.fit(X)

如果您有 X_new_sample 与 X 具有相同的向量格式，您可以使用 predict() 来识别 X_new_sample 中的每一行属于哪个簇。

km.predict(X_new_sample)

Determine the cluster for a new document with Scikit