Elbow 曲线在 K-Means 中寻找 K 的可靠性如何？

How reliable is the Elbow curve in finding K in K-Means?

所以我试图使用 Elbow 曲线在 K-Means 聚类中找到最佳值 'K'（聚类数）。

聚类是针对我的数据集（1467 行）中文本列的平均向量（使用 Word2Vec）完成的。但是查看我的文本数据，我可以清楚地发现数据可以分为3组以上。

我读到的原因是 k 值较小，同时保持误差平方和 (SSE) 较低。有人能告诉我肘部曲线有多可靠吗？另外，如果我遗漏了什么。

附上弯头曲线供参考。我还尝试将其绘制到最多 70 个集群，探索性的。。

"Elbow" 甚至没有明确定义。那怎么可能靠谱呢？

您可以 "normalize" 通过将数据拆分为 k 个簇的预期下降来计算值，这样会变得更具可读性。不幸的是，我忘记了 that.Calinski 和 Harabasz (1974) 方差比准则的确切名称？如果我没记错这个名字，那本质上是一个重新缩放的版本，使 much 更有意义。