Python 中具有 nan 值的数组之间的平均值

Question

我在 Python

中有三个数组

a = np.array([[10., 10., 10., 10.], [10., nan, 10., 10.], [10., 10., nan, 10.]])
b = np.array([[10., 10., 10., 10.], [10., 10., 10., nan], [10., 10.,nan, 10]])
c = np.array([[10., nan, 10., 10.], [nan, 10., 10., nan], [10., 10.,nan, 10]])

我需要计算平均值以获得以下数组：

>>> myavg 
array([[ 10.,  10,  10.,  10.],
       [ 10,  10.,  10.,  10.],
       [ 10.,  10.,  nan,  10.]])

第一步是将数组转换为新的 [0,1] 数组并求和（即 3 = 每个数组中的数据，2 = 仅两个数组中的数据，1 = olny 一个数组中的数据，0 = 无数据）

aa = a.copy()
bb = b.copy()
cc = c.copy()
aa[aa == 10.] = 1
aa[aa != 1] = 0
bb[bb == 10.] = 1
bb[bb != 1] = 0
cc[cc == 10.] = 1
cc[cc != 1] = 0
dd = aa + bb + cc

>>> dd
array([[ 3.,  2.,  3.,  3.],
       [ 2.,  2.,  3.,  1.],
       [ 3.,  3.,  0.,  3.]])

第二个是对所有原始数组求和然后除以dd

c = a+b+c
>>> c
array([[ 30.,  nan,  30.,  30.],
       [ nan,  nan,  30.,  nan],
       [ 30.,  30.,  nan,  30.]])

问题很明显。当我用 nan 求和一个值时，我得到了 nan。我无法将 nan 转换为“0”，因为在我的真实情况下 0 是一个值（即温度）

Answer 1

您可以将a、b和c放入一个三维数组中，然后使用numpy.nanmean:

In [2]: %paste
a = np.array([[10., 10., 10., 10.], [10., nan, 10., 10.], [10., 10., nan, 10.]])
b = np.array([[10., 10., 10., 10.], [10., 10., 10., nan], [10., 10.,nan, 10]])
c = np.array([[10., nan, 10., 10.], [nan, 10., 10., nan], [10., 10.,nan, 10]])

## -- End pasted text --

In [3]: m = np.array([a, b, c])

In [4]: np.nanmean(m, axis=0)
/Users/warren/anaconda/lib/python2.7/site-packages/numpy/lib/nanfunctions.py:675: RuntimeWarning: Mean of empty slice
  warnings.warn("Mean of empty slice", RuntimeWarning)
Out[4]: 
array([[ 10.,  10.,  10.,  10.],
       [ 10.,  10.,  10.,  10.],
       [ 10.,  10.,  nan,  10.]])

出现警告是因为在一种情况下，所有被平均的值都是 nan。

Answer 2

很简单，在计算dd之后，但在计算c之前，将NaN设置为零即可。这样 NaN 将在 c 中被忽略，您将获得所需的平均值。

将 NaN 设置为零的简单方法是：http://docs.scipy.org/doc/numpy-1.10.0/reference/generated/numpy.nan_to_num.html

但是，还有一个问题，即您的 dd 矩阵在索引 [2,2] 处为零。要解决此问题，只需将其设置为 NaN（因为如果 dd 条目为零，则我们可以忽略此平均值/此索引没有平均值）。

这是有效的代码：

import numpy as np
from numpy import nan

a = np.array([[10., 10., 10., 10.], [10., nan, 10., 10.], [10., 10., nan, 10.]])
b = np.array([[10., 10., 10., 10.], [10., 10., 10., nan], [10., 10.,nan, 10]])
c = np.array([[10., nan, 10., 10.], [nan, 10., 10., nan], [10., 10.,nan, 10]])

aa = a.copy()
bb = b.copy()
cc = c.copy()
aa[aa == 10.] = 1
aa[aa != 1] = 0
bb[bb == 10.] = 1
bb[bb != 1] = 0
cc[cc == 10.] = 1
cc[cc != 1] = 0
dd = aa + bb + cc
dd[dd == 0] = nan

c = np.nan_to_num(a) + np.nan_to_num(b) + np.nan_to_num(c)

your_avg = c / dd

$your_avg
array([[ 10.,  10.,  10.,  10.],
   [ 10.,  10.,  10.,  10.],
   [ 10.,  10.,  nan,  10.]])

一条单独的建议。如果您可以将数据重新格式化为 12 个数组，每个数组包含三个条目，则可以使用：http://docs.scipy.org/doc/numpy-dev/reference/generated/numpy.nanmean.html

或者按照 Warren 的建议，将其放入单个 3d 数组中。真漂亮！

Answer 3

这将很好地利用 masked arrays。

将 3 合并到数组 (3d) 中：

In [257]: abc=np.array([a,b,c])

第一个轴上的平均值是您想要的 - 除了 nan 传播。

In [258]: abc.mean(axis=0)
Out[258]: 
array([[ 10.,  nan,  10.,  10.],
       [ nan,  nan,  10.,  nan],
       [ 10.,  10.,  nan,  10.]])

制作一个屏蔽数组，屏蔽掉 nan:

In [259]: abcm=np.ma.masked_where(np.isnan(abc),abc)

In [260]: abcm
Out[260]: 
masked_array(data =
 [[[10.0 10.0 10.0 10.0]
  [10.0 -- 10.0 10.0]
  [10.0 10.0 -- 10.0]]

 [[10.0 10.0 10.0 10.0]
  [10.0 10.0 10.0 --]
  [10.0 10.0 -- 10.0]]

 [[10.0 -- 10.0 10.0]
  [-- 10.0 10.0 --]
  [10.0 10.0 -- 10.0]]],
             mask =
 [[[False False False False]
  [False  True False False]
  [False False  True False]]

 [[False False False False]
  [False False False  True]
  [False False  True False]]

 [[False  True False False]
  [ True False False  True]
  [False False  True False]]],
       fill_value = 1e+20)

现在我可以在没有 nan 影响值的情况下取平均值 - 除了所有值都是 nan.

的单元格

In [261]: abcm.mean(axis=0)
Out[261]: 
masked_array(data =
 [[10.0 10.0 10.0 10.0]
 [10.0 10.0 10.0 10.0]
 [10.0 10.0 -- 10.0]],
             mask =
 [[False False False False]
 [False False False False]
 [False False  True False]],
       fill_value = 1e+20)

然后返回到带有 filled 的常规数组：

In [262]: abcm.mean(axis=0).filled(np.nan)
Out[262]: 
array([[ 10.,  10.,  10.,  10.],
       [ 10.,  10.,  10.,  10.],
       [ 10.,  10.,  nan,  10.]])

Python 中具有 nan 值的数组之间的平均值

average between arrays in Python with nan value

python

arrays

numpy

average

nan