大 z 得分值

Large z-score values

我们正在研究大型电信数据集。当我们对数据进行标准化时,我们得到了很大的 z 分数,它从 -0.xxx 到 300 或 400 不等! 这些属性例如 min=0 和 Max 大约 4,000,000 是的,有些变量有异常值。我们在不处理异常值的情况下进行聚类会有很好的结果吗?

具有 8 个簇的 proc fastclus 的结果导致分组簇(第 7 个有 1,600,000 个观察值)还有一个具有 1 个观察值。

我们的问题是什么?

https://medium.com/p/6b6056224c54/info?source=email-75f4ab5a8577-1529361861973-activity.response_createdhttps://medium.com/p/6b6056224c54/info?source=email-75f4ab5a8577-1529361861973-activity.response_created

您的变量可能非常倾斜

对此类变量使用 z 标准化是有问题的。您可能也应该研究 box-cox 变换。