K-means:只有两个最佳集群
K-means: Only two optimal clusters
我是 运行 R 中的 k-means 算法,并试图找到最佳簇数 k。使用剪影方法、间隙统计和肘部方法,我确定最佳集群数为 2。虽然业务没有预定义的集群,但我担心 k=2 不太有见地,这导致我问几个问题。
1) 就数据的自然聚类而言,最佳 k = 2 意味着什么?这是否表明可能没有明确的集群或者没有集群比任何集群都好?
2) 在 k = 2 时,R 平方较低 (.1)。在 k = 5 时,R 平方要好得多 (.32)。在知道 k = 5 不是最优的情况下选择它的确切权衡是什么?是否可以增加集群,但它们可能不够明显?
3) 我的n=1000,我有100个变量可供选择,但只从领域知识中选择了5个。增加变量的数量一定会使聚类更好吗?
4) 作为问题 3 的后续,如果引入了一个变量并降低了 R 平方,那么这对变量有何影响?
我不是专家,但我会尽力回答:
1) 您的最佳聚类数方法给了您 k=2 ,因此这表明存在明显的聚类,该数字只是很低 (2)。为了帮助解决这个问题,请尝试使用您的领域知识来帮助解释,给定您的领域,2 个集群是否有意义?
2) 是的,你是对的。就 R-squared 而言,最佳解决方案是拥有与数据点一样多的集群,但是就您这样做的原因而言,这并不是最佳选择 k-means。您正在做 k-means 是为了从数据中获得更有洞察力的信息,这是您的主要目标。因此,如果您选择 k=5,您的数据将更适合您的 5 个集群,但正如您所说,它们之间可能没有太大区别,因此您无法获得任何洞察力。
3) 不一定,盲目添加反而会更糟。 K-means 在欧几里德 space 中运行,因此在确定聚类时每个变量都被赋予均匀的权重。如果您添加不相关的变量,它们的值仍然会扭曲 n-d space,使您的集群变得更糟。
4)(在这里仔细检查我的逻辑,我不是 100% 相信这个)如果一个变量被引入相同数量的集群并且它删除了 R-squared 那么是的,它是一个有用的变量添加,这意味着它与您的其他变量相关。
我是 运行 R 中的 k-means 算法,并试图找到最佳簇数 k。使用剪影方法、间隙统计和肘部方法,我确定最佳集群数为 2。虽然业务没有预定义的集群,但我担心 k=2 不太有见地,这导致我问几个问题。
1) 就数据的自然聚类而言,最佳 k = 2 意味着什么?这是否表明可能没有明确的集群或者没有集群比任何集群都好?
2) 在 k = 2 时,R 平方较低 (.1)。在 k = 5 时,R 平方要好得多 (.32)。在知道 k = 5 不是最优的情况下选择它的确切权衡是什么?是否可以增加集群,但它们可能不够明显?
3) 我的n=1000,我有100个变量可供选择,但只从领域知识中选择了5个。增加变量的数量一定会使聚类更好吗?
4) 作为问题 3 的后续,如果引入了一个变量并降低了 R 平方,那么这对变量有何影响?
我不是专家,但我会尽力回答:
1) 您的最佳聚类数方法给了您 k=2 ,因此这表明存在明显的聚类,该数字只是很低 (2)。为了帮助解决这个问题,请尝试使用您的领域知识来帮助解释,给定您的领域,2 个集群是否有意义?
2) 是的,你是对的。就 R-squared 而言,最佳解决方案是拥有与数据点一样多的集群,但是就您这样做的原因而言,这并不是最佳选择 k-means。您正在做 k-means 是为了从数据中获得更有洞察力的信息,这是您的主要目标。因此,如果您选择 k=5,您的数据将更适合您的 5 个集群,但正如您所说,它们之间可能没有太大区别,因此您无法获得任何洞察力。
3) 不一定,盲目添加反而会更糟。 K-means 在欧几里德 space 中运行,因此在确定聚类时每个变量都被赋予均匀的权重。如果您添加不相关的变量,它们的值仍然会扭曲 n-d space,使您的集群变得更糟。
4)(在这里仔细检查我的逻辑,我不是 100% 相信这个)如果一个变量被引入相同数量的集群并且它删除了 R-squared 那么是的,它是一个有用的变量添加,这意味着它与您的其他变量相关。