Python 中具有 nan 值的数组之间的平均值
average between arrays in Python with nan value
我在 Python
中有三个数组
a = np.array([[10., 10., 10., 10.], [10., nan, 10., 10.], [10., 10., nan, 10.]])
b = np.array([[10., 10., 10., 10.], [10., 10., 10., nan], [10., 10.,nan, 10]])
c = np.array([[10., nan, 10., 10.], [nan, 10., 10., nan], [10., 10.,nan, 10]])
我需要计算平均值以获得以下数组:
>>> myavg
array([[ 10., 10, 10., 10.],
[ 10, 10., 10., 10.],
[ 10., 10., nan, 10.]])
第一步是将数组转换为新的 [0,1] 数组并求和(即 3 = 每个数组中的数据,2 = 仅两个数组中的数据,1 = olny 一个数组中的数据,0 = 无数据)
aa = a.copy()
bb = b.copy()
cc = c.copy()
aa[aa == 10.] = 1
aa[aa != 1] = 0
bb[bb == 10.] = 1
bb[bb != 1] = 0
cc[cc == 10.] = 1
cc[cc != 1] = 0
dd = aa + bb + cc
>>> dd
array([[ 3., 2., 3., 3.],
[ 2., 2., 3., 1.],
[ 3., 3., 0., 3.]])
第二个是对所有原始数组求和然后除以dd
c = a+b+c
>>> c
array([[ 30., nan, 30., 30.],
[ nan, nan, 30., nan],
[ 30., 30., nan, 30.]])
问题很明显。当我用 nan 求和一个值时,我得到了 nan。我无法将 nan 转换为“0”,因为在我的真实情况下 0 是一个值(即温度)
您可以将a
、b
和c
放入一个三维数组中,然后使用numpy.nanmean
:
In [2]: %paste
a = np.array([[10., 10., 10., 10.], [10., nan, 10., 10.], [10., 10., nan, 10.]])
b = np.array([[10., 10., 10., 10.], [10., 10., 10., nan], [10., 10.,nan, 10]])
c = np.array([[10., nan, 10., 10.], [nan, 10., 10., nan], [10., 10.,nan, 10]])
## -- End pasted text --
In [3]: m = np.array([a, b, c])
In [4]: np.nanmean(m, axis=0)
/Users/warren/anaconda/lib/python2.7/site-packages/numpy/lib/nanfunctions.py:675: RuntimeWarning: Mean of empty slice
warnings.warn("Mean of empty slice", RuntimeWarning)
Out[4]:
array([[ 10., 10., 10., 10.],
[ 10., 10., 10., 10.],
[ 10., 10., nan, 10.]])
出现警告是因为在一种情况下,所有被平均的值都是 nan。
很简单,在计算dd之后,但在计算c之前,将NaN设置为零即可。这样 NaN 将在 c 中被忽略,您将获得所需的平均值。
将 NaN 设置为零的简单方法是:http://docs.scipy.org/doc/numpy-1.10.0/reference/generated/numpy.nan_to_num.html
但是,还有一个问题,即您的 dd 矩阵在索引 [2,2] 处为零。要解决此问题,只需将其设置为 NaN(因为如果 dd 条目为零,则我们可以忽略此平均值/此索引没有平均值)。
这是有效的代码:
import numpy as np
from numpy import nan
a = np.array([[10., 10., 10., 10.], [10., nan, 10., 10.], [10., 10., nan, 10.]])
b = np.array([[10., 10., 10., 10.], [10., 10., 10., nan], [10., 10.,nan, 10]])
c = np.array([[10., nan, 10., 10.], [nan, 10., 10., nan], [10., 10.,nan, 10]])
aa = a.copy()
bb = b.copy()
cc = c.copy()
aa[aa == 10.] = 1
aa[aa != 1] = 0
bb[bb == 10.] = 1
bb[bb != 1] = 0
cc[cc == 10.] = 1
cc[cc != 1] = 0
dd = aa + bb + cc
dd[dd == 0] = nan
c = np.nan_to_num(a) + np.nan_to_num(b) + np.nan_to_num(c)
your_avg = c / dd
$your_avg
array([[ 10., 10., 10., 10.],
[ 10., 10., 10., 10.],
[ 10., 10., nan, 10.]])
一条单独的建议。如果您可以将数据重新格式化为 12 个数组,每个数组包含三个条目,则可以使用:http://docs.scipy.org/doc/numpy-dev/reference/generated/numpy.nanmean.html
或者按照 Warren 的建议,将其放入单个 3d 数组中。真漂亮!
这将很好地利用 masked arrays
。
将 3 合并到数组 (3d) 中:
In [257]: abc=np.array([a,b,c])
第一个轴上的平均值是您想要的 - 除了 nan
传播。
In [258]: abc.mean(axis=0)
Out[258]:
array([[ 10., nan, 10., 10.],
[ nan, nan, 10., nan],
[ 10., 10., nan, 10.]])
制作一个屏蔽数组,屏蔽掉 nan
:
In [259]: abcm=np.ma.masked_where(np.isnan(abc),abc)
In [260]: abcm
Out[260]:
masked_array(data =
[[[10.0 10.0 10.0 10.0]
[10.0 -- 10.0 10.0]
[10.0 10.0 -- 10.0]]
[[10.0 10.0 10.0 10.0]
[10.0 10.0 10.0 --]
[10.0 10.0 -- 10.0]]
[[10.0 -- 10.0 10.0]
[-- 10.0 10.0 --]
[10.0 10.0 -- 10.0]]],
mask =
[[[False False False False]
[False True False False]
[False False True False]]
[[False False False False]
[False False False True]
[False False True False]]
[[False True False False]
[ True False False True]
[False False True False]]],
fill_value = 1e+20)
现在我可以在没有 nan
影响值的情况下取平均值 - 除了所有值都是 nan
.
的单元格
In [261]: abcm.mean(axis=0)
Out[261]:
masked_array(data =
[[10.0 10.0 10.0 10.0]
[10.0 10.0 10.0 10.0]
[10.0 10.0 -- 10.0]],
mask =
[[False False False False]
[False False False False]
[False False True False]],
fill_value = 1e+20)
然后返回到带有 filled
的常规数组:
In [262]: abcm.mean(axis=0).filled(np.nan)
Out[262]:
array([[ 10., 10., 10., 10.],
[ 10., 10., 10., 10.],
[ 10., 10., nan, 10.]])
我在 Python
中有三个数组a = np.array([[10., 10., 10., 10.], [10., nan, 10., 10.], [10., 10., nan, 10.]])
b = np.array([[10., 10., 10., 10.], [10., 10., 10., nan], [10., 10.,nan, 10]])
c = np.array([[10., nan, 10., 10.], [nan, 10., 10., nan], [10., 10.,nan, 10]])
我需要计算平均值以获得以下数组:
>>> myavg
array([[ 10., 10, 10., 10.],
[ 10, 10., 10., 10.],
[ 10., 10., nan, 10.]])
第一步是将数组转换为新的 [0,1] 数组并求和(即 3 = 每个数组中的数据,2 = 仅两个数组中的数据,1 = olny 一个数组中的数据,0 = 无数据)
aa = a.copy()
bb = b.copy()
cc = c.copy()
aa[aa == 10.] = 1
aa[aa != 1] = 0
bb[bb == 10.] = 1
bb[bb != 1] = 0
cc[cc == 10.] = 1
cc[cc != 1] = 0
dd = aa + bb + cc
>>> dd
array([[ 3., 2., 3., 3.],
[ 2., 2., 3., 1.],
[ 3., 3., 0., 3.]])
第二个是对所有原始数组求和然后除以dd
c = a+b+c
>>> c
array([[ 30., nan, 30., 30.],
[ nan, nan, 30., nan],
[ 30., 30., nan, 30.]])
问题很明显。当我用 nan 求和一个值时,我得到了 nan。我无法将 nan 转换为“0”,因为在我的真实情况下 0 是一个值(即温度)
您可以将a
、b
和c
放入一个三维数组中,然后使用numpy.nanmean
:
In [2]: %paste
a = np.array([[10., 10., 10., 10.], [10., nan, 10., 10.], [10., 10., nan, 10.]])
b = np.array([[10., 10., 10., 10.], [10., 10., 10., nan], [10., 10.,nan, 10]])
c = np.array([[10., nan, 10., 10.], [nan, 10., 10., nan], [10., 10.,nan, 10]])
## -- End pasted text --
In [3]: m = np.array([a, b, c])
In [4]: np.nanmean(m, axis=0)
/Users/warren/anaconda/lib/python2.7/site-packages/numpy/lib/nanfunctions.py:675: RuntimeWarning: Mean of empty slice
warnings.warn("Mean of empty slice", RuntimeWarning)
Out[4]:
array([[ 10., 10., 10., 10.],
[ 10., 10., 10., 10.],
[ 10., 10., nan, 10.]])
出现警告是因为在一种情况下,所有被平均的值都是 nan。
很简单,在计算dd之后,但在计算c之前,将NaN设置为零即可。这样 NaN 将在 c 中被忽略,您将获得所需的平均值。
将 NaN 设置为零的简单方法是:http://docs.scipy.org/doc/numpy-1.10.0/reference/generated/numpy.nan_to_num.html
但是,还有一个问题,即您的 dd 矩阵在索引 [2,2] 处为零。要解决此问题,只需将其设置为 NaN(因为如果 dd 条目为零,则我们可以忽略此平均值/此索引没有平均值)。
这是有效的代码:
import numpy as np
from numpy import nan
a = np.array([[10., 10., 10., 10.], [10., nan, 10., 10.], [10., 10., nan, 10.]])
b = np.array([[10., 10., 10., 10.], [10., 10., 10., nan], [10., 10.,nan, 10]])
c = np.array([[10., nan, 10., 10.], [nan, 10., 10., nan], [10., 10.,nan, 10]])
aa = a.copy()
bb = b.copy()
cc = c.copy()
aa[aa == 10.] = 1
aa[aa != 1] = 0
bb[bb == 10.] = 1
bb[bb != 1] = 0
cc[cc == 10.] = 1
cc[cc != 1] = 0
dd = aa + bb + cc
dd[dd == 0] = nan
c = np.nan_to_num(a) + np.nan_to_num(b) + np.nan_to_num(c)
your_avg = c / dd
$your_avg
array([[ 10., 10., 10., 10.],
[ 10., 10., 10., 10.],
[ 10., 10., nan, 10.]])
一条单独的建议。如果您可以将数据重新格式化为 12 个数组,每个数组包含三个条目,则可以使用:http://docs.scipy.org/doc/numpy-dev/reference/generated/numpy.nanmean.html
或者按照 Warren 的建议,将其放入单个 3d 数组中。真漂亮!
这将很好地利用 masked arrays
。
将 3 合并到数组 (3d) 中:
In [257]: abc=np.array([a,b,c])
第一个轴上的平均值是您想要的 - 除了 nan
传播。
In [258]: abc.mean(axis=0)
Out[258]:
array([[ 10., nan, 10., 10.],
[ nan, nan, 10., nan],
[ 10., 10., nan, 10.]])
制作一个屏蔽数组,屏蔽掉 nan
:
In [259]: abcm=np.ma.masked_where(np.isnan(abc),abc)
In [260]: abcm
Out[260]:
masked_array(data =
[[[10.0 10.0 10.0 10.0]
[10.0 -- 10.0 10.0]
[10.0 10.0 -- 10.0]]
[[10.0 10.0 10.0 10.0]
[10.0 10.0 10.0 --]
[10.0 10.0 -- 10.0]]
[[10.0 -- 10.0 10.0]
[-- 10.0 10.0 --]
[10.0 10.0 -- 10.0]]],
mask =
[[[False False False False]
[False True False False]
[False False True False]]
[[False False False False]
[False False False True]
[False False True False]]
[[False True False False]
[ True False False True]
[False False True False]]],
fill_value = 1e+20)
现在我可以在没有 nan
影响值的情况下取平均值 - 除了所有值都是 nan
.
In [261]: abcm.mean(axis=0)
Out[261]:
masked_array(data =
[[10.0 10.0 10.0 10.0]
[10.0 10.0 10.0 10.0]
[10.0 10.0 -- 10.0]],
mask =
[[False False False False]
[False False False False]
[False False True False]],
fill_value = 1e+20)
然后返回到带有 filled
的常规数组:
In [262]: abcm.mean(axis=0).filled(np.nan)
Out[262]:
array([[ 10., 10., 10., 10.],
[ 10., 10., 10., 10.],
[ 10., 10., nan, 10.]])