如何解释 Python 聚类分数?

How to interprete the Python Clustering scores?

我尝试使用凝聚聚类对一些数据进行聚类,但我不知道哪个聚类数量是完美的。这是我的结果:

数据库包含 65 个 类 待识别。基尼值=0.265.

  1. 簇数应该选择什么?也许与 类 的数量相同?
  2. 完整性和同质性与v度量的交点是什么意思?
  3. 调整后的相互信息分数的最大值是什么意思?
  1. 不要使用这些措施来选择 k。因为它们与已知的解决方案进行了比较。如果您有已知的解决方案,为什么要选择近似值呢?

  2. 可能只是巧合吧。但是你可能想研究方程式,也许他们在这一点上确实同意。

  3. 对于 AMI、NMI、ARI 等,最大值是与您现有的标记解决方案最一致的 k。