大 z 得分值
Large z-score values
我们正在研究大型电信数据集。当我们对数据进行标准化时,我们得到了很大的 z 分数,它从 -0.xxx 到 300 或 400 不等!
这些属性例如 min=0 和 Max 大约 4,000,000
是的,有些变量有异常值。我们在不处理异常值的情况下进行聚类会有很好的结果吗?
具有 8 个簇的 proc fastclus 的结果导致分组簇(第 7 个有 1,600,000 个观察值)还有一个具有 1 个观察值。
我们的问题是什么?
您的变量可能非常倾斜。
对此类变量使用 z 标准化是有问题的。您可能也应该研究 box-cox 变换。
我们正在研究大型电信数据集。当我们对数据进行标准化时,我们得到了很大的 z 分数,它从 -0.xxx 到 300 或 400 不等! 这些属性例如 min=0 和 Max 大约 4,000,000 是的,有些变量有异常值。我们在不处理异常值的情况下进行聚类会有很好的结果吗?
具有 8 个簇的 proc fastclus 的结果导致分组簇(第 7 个有 1,600,000 个观察值)还有一个具有 1 个观察值。
我们的问题是什么?
您的变量可能非常倾斜。
对此类变量使用 z 标准化是有问题的。您可能也应该研究 box-cox 变换。