K-means：只有两个最佳集群

K-means: Only two optimal clusters

我是运行 R 中的 k-means 算法，并试图找到最佳簇数 k。使用剪影方法、间隙统计和肘部方法，我确定最佳集群数为 2。虽然业务没有预定义的集群，但我担心 k=2 不太有见地，这导致我问几个问题。

1) 就数据的自然聚类而言，最佳 k = 2 意味着什么？这是否表明可能没有明确的集群或者没有集群比任何集群都好？

2) 在 k = 2 时，R 平方较低 (.1)。在 k = 5 时，R 平方要好得多 (.32)。在知道 k = 5 不是最优的情况下选择它的确切权衡是什么？是否可以增加集群，但它们可能不够明显？

3) 我的n=1000，我有100个变量可供选择，但只从领域知识中选择了5个。增加变量的数量一定会使聚类更好吗？

4) 作为问题 3 的后续，如果引入了一个变量并降低了 R 平方，那么这对变量有何影响？

我不是专家，但我会尽力回答：

1) 您的最佳聚类数方法给了您 k=2 ，因此这表明存在明显的聚类，该数字只是很低 (2)。为了帮助解决这个问题，请尝试使用您的领域知识来帮助解释，给定您的领域，2 个集群是否有意义？

2) 是的，你是对的。就 R-squared 而言，最佳解决方案是拥有与数据点一样多的集群，但是就您这样做的原因而言，这并不是最佳选择 k-means。您正在做 k-means 是为了从数据中获得更有洞察力的信息，这是您的主要目标。因此，如果您选择 k=5，您的数据将更适合您的 5 个集群，但正如您所说，它们之间可能没有太大区别，因此您无法获得任何洞察力。

3) 不一定，盲目添加反而会更糟。 K-means 在欧几里德 space 中运行，因此在确定聚类时每个变量都被赋予均匀的权重。如果您添加不相关的变量，它们的值仍然会扭曲 n-d space，使您的集群变得更糟。

4)（在这里仔细检查我的逻辑，我不是 100% 相信这个）如果一个变量被引入相同数量的集群并且它删除了 R-squared 那么是的，它是一个有用的变量添加，这意味着它与您的其他变量相关。

K-means：只有两个最佳集群

K-means: Only two optimal clusters

statistics

modeling

cluster-analysis

machine-learning