我可以使用几何平均值表示多维数据来检测离群值吗?

Can I use Geometric mean to represent multi-dimensional data for detect outlier?

如果我有3个多维数据:

Data 1: (22, 80, 9)

Data 2: (23, 78, 10)

Data 3: (21, 81, 11)

我想计算这 3 个数据的均值和标准差,因为我想通过 3-sigma 规则检测异常值。

我可以简单地计算几何平均值来表示Data1、Data2和Data3吗?


例如:

Data 1: (22,80,9) -> Data 1: (25.11414)


Data 2: (23,78,10) -> Data 2: (26.17826)


Data 3: (21,81,11) -> Data 3: (26.54803)

我把多维数据映射到一维数据后,就可以轻松得到方差和标准差了。

以上是我的推理,不知道有没有道理。

谁能回答我,或者有人看过关于这个主题的论文,

非常感谢!

为了使用“3 sigma 规则”,我假设数据集的每个维度都是固定的(从某种意义上说,它在数据样本中具有一致的含义),因此:

Data 1: (22, 80,  9)
Data 2: (23, 78, 10)
Data 3: (21, 81, 11)
          ^   ^   ^
          |   |   |
  some 1st feature|
              |   |
      second feature
                  |
          third feature

您需要估计特征标准,因此

std1 = std(22, 23, 21)
std2 = std(80, 78, 81)
std3 = std(9,  10, 11)

mu1 = mean(22, 23, 21)
mu2 = mean(80, 78, 81)
mu3 = mean(9,  10, 11)

现在,当你有一个新的数据点时 (x1, x2, x3) 你假设它是一个离群值当且仅当至少满足以下条件之一

  • x1不属于[mu1 - 3*std1, mu1 + 3*std1]
  • x2不属于[mu2 - 3*std2, mu2 + 3*std2]
  • x3不属于[mu3 - 3*std3, mu3 + 3*std3]

实际上,正在发生的事情是您假设您的数据在特征方面具有单变量正态分布并且特征是条件独立的,并且您只是拒绝概率小于 ~99.7% 的点。

没有任何地方涉及 "geometrical mean"。