在 K-Means 聚类算法(sklearn)中如何将欧氏距离覆盖到某个距离

In K-Means clustering algorithm(sklearn) how to override euclidean distance to some distance

我有一些文档,我想将相关文档分组。目前,我正在使用 google 的新闻矢量文件 (GoogleNews-vectors-negative300.bin) 并使用此矢量文件获取矢量,并使用 WMD(Word Mover Distance)算法获取距离两个文件之间。现在我想将它与 K-means 集成 clustering.Basically 我想覆盖 KMeans 中的距离计算功能。我怎样才能做到这一点?欢迎提出任何建议。提前致谢。

虽然理论上可以使用其他距离度量实施 k-means,但不建议这样做 - 您的算法可能会停止收敛。可以找到更详细的讨论,例如在 StackExchange。这就是为什么 scikit-learn 没有其他距离指标的原因。

我建议使用例如层次聚类,您可以在其中插入任意距离函数。