识别数据中的异常值

Identifying outliers in the data

我有一个程序可以删除异常数据。在数据集中,离群值是指大于或小于平均值 2 个标准差以上的值。有没有办法 record/store 哪些数据点被认为是异常值,以便我们稍后查看它们?

要识别值比均值多 2 个标准差的情况,您可以这样做:

aggregate 
    /out=* mode=addvariables /break= /yourvrS=SD(yourvr) /yourvrM=mean(yourvr).
compute outlier = abs(yourvr - yourvrM) > 2 * yourvrS .

新变量outlier 将接收异常值的值 1