识别数据中的异常值
Identifying outliers in the data
我有一个程序可以删除异常数据。在数据集中,离群值是指大于或小于平均值 2 个标准差以上的值。有没有办法 record/store 哪些数据点被认为是异常值,以便我们稍后查看它们?
要识别值比均值多 2 个标准差的情况,您可以这样做:
aggregate
/out=* mode=addvariables /break= /yourvrS=SD(yourvr) /yourvrM=mean(yourvr).
compute outlier = abs(yourvr - yourvrM) > 2 * yourvrS .
新变量outlier
将接收异常值的值 1
。
我有一个程序可以删除异常数据。在数据集中,离群值是指大于或小于平均值 2 个标准差以上的值。有没有办法 record/store 哪些数据点被认为是异常值,以便我们稍后查看它们?
要识别值比均值多 2 个标准差的情况,您可以这样做:
aggregate
/out=* mode=addvariables /break= /yourvrS=SD(yourvr) /yourvrM=mean(yourvr).
compute outlier = abs(yourvr - yourvrM) > 2 * yourvrS .
新变量outlier
将接收异常值的值 1
。