如何解释 Python 聚类分数?
How to interprete the Python Clustering scores?
我尝试使用凝聚聚类对一些数据进行聚类,但我不知道哪个聚类数量是完美的。这是我的结果:
数据库包含 65 个 类 待识别。基尼值=0.265.
- 簇数应该选择什么?也许与 类 的数量相同?
- 完整性和同质性与v度量的交点是什么意思?
- 调整后的相互信息分数的最大值是什么意思?
不要使用这些措施来选择 k。因为它们与已知的解决方案进行了比较。如果您有已知的解决方案,为什么要选择近似值呢?
可能只是巧合吧。但是你可能想研究方程式,也许他们在这一点上确实同意。
对于 AMI、NMI、ARI 等,最大值是与您现有的标记解决方案最一致的 k。
我尝试使用凝聚聚类对一些数据进行聚类,但我不知道哪个聚类数量是完美的。这是我的结果:
数据库包含 65 个 类 待识别。基尼值=0.265.
- 簇数应该选择什么?也许与 类 的数量相同?
- 完整性和同质性与v度量的交点是什么意思?
- 调整后的相互信息分数的最大值是什么意思?
不要使用这些措施来选择 k。因为它们与已知的解决方案进行了比较。如果您有已知的解决方案,为什么要选择近似值呢?
可能只是巧合吧。但是你可能想研究方程式,也许他们在这一点上确实同意。
对于 AMI、NMI、ARI 等,最大值是与您现有的标记解决方案最一致的 k。