Elbow 曲线在 K-Means 中寻找 K 的可靠性如何?

How reliable is the Elbow curve in finding K in K-Means?

所以我试图使用 Elbow 曲线在 K-Means 聚类中找到最佳值 'K'(聚类数)。

聚类是针对我的数据集(1467 行)中文本列的平均向量(使用 Word2Vec)完成的。但是查看我的文本数据,我可以清楚地发现数据可以分为3组以上。

我读到的原因是 k 值较小,同时保持误差平方和 (SSE) 较低。有人能告诉我肘部曲线有多可靠吗? 另外,如果我遗漏了什么。

附上弯头曲线供参考。我还尝试将其绘制到最多 70 个集群,探索性的。

"Elbow" 甚至没有明确定义。那怎么可能靠谱呢?

您可以 "normalize" 通过将数据拆分为 k 个簇的预期下降来计算值,这样会变得更具可读性。 不幸的是,我忘记了 that.Calinski 和 Harabasz (1974) 方差比准则的确切名称?如果我没记错这个名字,那本质上是一个重新缩放的版本,使 much 更有意义。