python numpy 在不展平的情况下获取屏蔽数据

Question

如何在不将数据展平为一维数组的情况下仅获取屏蔽数据？也就是说，假设我有一个 numpy 数组

a = np.array([[0, 1, 2, 3],
              [0, 1, 2, 3],
              [0, 1, 2, 3]])

并且我屏蔽了所有大于 1 的元素，

b = ma.masked_greater(a, 1)

masked_array(data =
 [[0 1 -- --]
 [0 1 -- --]
 [0 1 -- --]],
             mask =
 [[False False  True  True]
 [False False  True  True]
 [False False  True  True]],
       fill_value = 999999)

如何在不展平输出的情况下仅获取屏蔽元素？也就是说，我需要得到

array([[ 2, 3],
       [2, 3],
       [2, 3]])

Answer 1

将两个列表压缩在一起，然后过滤掉它们：

data = [[0, 1, 1, 1], [0, 1, 1, 1], [0, 1, 1, 1]]

mask = [[False, False,  True,  True],
 [False, False,  True,  True],
 [False, False,  True,  True]]

zipped = zip(data, mask) # [([0, 1, 1, 1], [False, False, True, True]), ([0, 1, 1, 1], [False, False, True, True]), ([0, 1, 1, 1], [False, False, True, True])]

masked = []
for lst, mask in zipped:
    pairs = zip(lst, mask)  # [(0, False), (1, False), (1, True), (1, True)]
    masked.append([num for num, b in pairs if b])

print(masked)  # [[1, 1], [1, 1], [1, 1]]

或更简洁：

zipped = [...]
masked = [[num for num, b in zip(lst, mask) if b] for lst, mask in zipped]
print(masked)  # [[1, 1], [1, 1], [1, 1]]

Answer 2

由于 numpy 中的矢量化，您可以使用 np.where 到第一个数组中的 select 项，并使用 None （或某个任意值）来指示值具有的位置被掩盖了。请注意，这意味着您必须对数组使用不太紧凑的表示形式，因此可能需要使用 -1 或一些特殊值。

import numpy as np

a = np.array([
    [0, 1, 2, 3],
    [0, 1, 2, 3],
    [0, 1, 2, 3]])

mask = np.array([[ True,  True,  True,  True],
    [ True, False,  True,  True],
    [False,  True,  True, False]])

np.where(a, np.array, None)

这会产生

array([[0, 1, 2, 3],
   [0, None, 2, 3],
   [None, 1, 2, None]], dtype=object)

Answer 3

让我们尝试一个产生参差不齐的结果的示例 - 每行中 'masked' 个值的数量不同。

In [292]: a=np.arange(12).reshape(3,4)
In [293]: a
Out[293]: 
array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])
In [294]: a<6
Out[294]: 
array([[ True,  True,  True,  True],
       [ True,  True, False, False],
       [False, False, False, False]], dtype=bool)

符合此条件的扁平化值列表。它不能 return 常规二维数组，因此它必须恢复为扁平数组。

In [295]: a[a<6]
Out[295]: array([0, 1, 2, 3, 4, 5])

做同样的事情，但逐行迭代

In [296]: [a1[a1<6] for a1 in a]
Out[296]: [array([0, 1, 2, 3]), array([4, 5]), array([], dtype=int32)]

尝试创建一个结果数组会生成一个对象类型数组，它只不过是数组包装器中的一个列表：

In [297]: np.array([a1[a1<6] for a1 in a])
Out[297]: array([array([0, 1, 2, 3]), array([4, 5]), array([], dtype=int32)], dtype=object)

结果参差不齐这一事实很好地表明，即使不是不可能，也很难通过一次矢量化操作执行该操作。

这是生成数组列表的另一种方法。使用 sum 我找到每行中有多少个元素，然后使用它来 split 将扁平化的数组分成子列表。

In [320]: idx=(a<6).sum(1).cumsum()[:-1]
In [321]: idx
Out[321]: array([4, 6], dtype=int32)
In [322]: np.split(a[a<6], idx)
Out[322]: [array([0, 1, 2, 3]), array([4, 5]), array([], dtype=float64)]

它确实使用了 'flattening'。对于这些小例子，它比行迭代慢。（不用担心空浮点数组，split 必须构造一些东西并使用默认数据类型。）

一个不同的掩码，没有空行清楚地显示了这两种方法的等价性。

In [344]: mask=np.tri(3,4,dtype=bool)  # lower tri
In [345]: mask
Out[345]: 
array([[ True, False, False, False],
       [ True,  True, False, False],
       [ True,  True,  True, False]], dtype=bool)
In [346]: idx=mask.sum(1).cumsum()[:-1]
In [347]: idx
Out[347]: array([1, 3], dtype=int32)
In [348]: [a1[m] for a1,m in zip(a,mask)]
Out[348]: [array([0]), array([4, 5]), array([ 8,  9, 10])]
In [349]: np.split(a[mask],idx)
Out[349]: [array([0]), array([4, 5]), array([ 8,  9, 10])]

python numpy 在不展平的情况下获取屏蔽数据

python numpy get masked data without flattening

python

arrays

numpy

mask