Elbow 曲线在 K-Means 中寻找 K 的可靠性如何?
How reliable is the Elbow curve in finding K in K-Means?
所以我试图使用 Elbow 曲线在 K-Means 聚类中找到最佳值 'K'(聚类数)。
聚类是针对我的数据集(1467 行)中文本列的平均向量(使用 Word2Vec)完成的。但是查看我的文本数据,我可以清楚地发现数据可以分为3组以上。
我读到的原因是 k 值较小,同时保持误差平方和 (SSE) 较低。有人能告诉我肘部曲线有多可靠吗?
另外,如果我遗漏了什么。
附上弯头曲线供参考。我还尝试将其绘制到最多 70 个集群,探索性的。。
"Elbow" 甚至没有明确定义。那怎么可能靠谱呢?
您可以 "normalize" 通过将数据拆分为 k 个簇的预期下降来计算值,这样会变得更具可读性。
不幸的是,我忘记了 that.Calinski 和 Harabasz (1974) 方差比准则的确切名称?如果我没记错这个名字,那本质上是一个重新缩放的版本,使 much 更有意义。
所以我试图使用 Elbow 曲线在 K-Means 聚类中找到最佳值 'K'(聚类数)。
聚类是针对我的数据集(1467 行)中文本列的平均向量(使用 Word2Vec)完成的。但是查看我的文本数据,我可以清楚地发现数据可以分为3组以上。
我读到的原因是 k 值较小,同时保持误差平方和 (SSE) 较低。有人能告诉我肘部曲线有多可靠吗? 另外,如果我遗漏了什么。
附上弯头曲线供参考。我还尝试将其绘制到最多 70 个集群,探索性的。
"Elbow" 甚至没有明确定义。那怎么可能靠谱呢?
您可以 "normalize" 通过将数据拆分为 k 个簇的预期下降来计算值,这样会变得更具可读性。 不幸的是,我忘记了 that.Calinski 和 Harabasz (1974) 方差比准则的确切名称?如果我没记错这个名字,那本质上是一个重新缩放的版本,使 much 更有意义。