如何在sklearn中构建大小大致平衡的集群

how to build clusters that are approximately balanced in size in sklearn

如上所见,sklearn中如何构建大小近似均衡的簇?我有一个疑问,聚类是按照一定的规则进行的,为什么我们可以在cluster中指定个数?反正我想知道如何实现这一步。

一些方法(例如,非 sklearn 的 HDBSCAN:https://hdbscan.readthedocs.io/en/latest/parameter_selection.html)具有类似 minimal_cluster_size 的参数。 sklearn 的 DBSCAN 的 min_samples 可能会以类似的方式工作。它不会为您提供准确的 'balanced' 集群,但可能会有所帮助。

但在我看来,有时 运行 不同参数的聚类算法和 select 'more balanced' 由您亲手输出更合理。在这种情况下,您可以看到哪些点不可分离,并可能添加更多数据(例如,计算额外的距离矩阵)或更改目标度量。

Why can we specify the number in cluster?

因为任务'find clusters'和'balance them'在大多数情况下意思有点相反。当您需要指定聚类数量时,我什至没有谈论算法。

我还有一个想法it.Calculate每个标签的个数,然后计算方差,得到方差最小的那个