识别数据中的异常值

Question

我有一个程序可以删除异常数据。在数据集中，离群值是指大于或小于平均值 2 个标准差以上的值。有没有办法 record/store 哪些数据点被认为是异常值，以便我们稍后查看它们？

Answer 1

要识别值比均值多 2 个标准差的情况，您可以这样做：

aggregate 
    /out=* mode=addvariables /break= /yourvrS=SD(yourvr) /yourvrM=mean(yourvr).
compute outlier = abs(yourvr - yourvrM) > 2 * yourvrS .

新变量outlier 将接收异常值的值 1。

Identifying outliers in the data