在 2D 和 1D 数组之间按元素使用 numpy
Using numpy isin element-wise between 2D and 1D arrays
我有一个非常简单的场景,我想测试二维数组的两个元素是否(分别)是更大数组的成员 - 例如:
full_array = np.array(['A','B','C','D','E','F'])
sub_arrays = np.array([['A','C','F'],
['B','C','E']])
np.isin(full_array, sub_arrays)
这给了我一个单一维度的输出:
array([ True, True, True, False, True, True])
显示 full_array 的元素是否存在于两个子数组中的任何一个中。我想要一个二维数组,显示 sub_arrays 中两个元素中的每一个相同的东西 - 所以:
array([[ True, False, True, False, False, True],
[ False, True, True, False, True, False]])
希望这是有道理的,如有任何帮助,我们将不胜感激。
广播基础
一个简单的方法是 broadcasting
在扩展其中一个数组然后沿各自的轴进行任何缩减后 -
In [140]: (full_array==sub_arrays[...,None]).any(axis=1)
Out[140]:
array([[ True, False, True, False, False, True],
[False, True, True, False, True, False]])
和searchsorted
具体案例#1
对 full_array
进行排序并且 sub_arrays
中的所有元素至少出现在 full_array
中的某个位置,我们还可以使用 np.searchsorted
-
idx = np.searchsorted(full_array, sub_arrays)
out = np.zeros((sub_arrays.shape[0],len(full_array)),dtype=bool)
np.put_along_axis(out, idx, 1, axis=1)
具体案例#2
对 full_array
进行排序,如果不是 sub_arrays
中的所有元素都保证至少出现在 full_array
中的某处,我们需要一个额外的步骤 -
idx = np.searchsorted(full_array, sub_arrays)
idx[idx==len(full_array)] = 0
out = np.zeros((sub_arrays.shape[0],len(full_array)),dtype=bool)
np.put_along_axis(out, idx, full_array[idx] == sub_arrays, axis=1)
一般案例
对于 full_array
的真正通用情况不一定要排序,我们需要使用 sorter
arg 和 searchsorted
-
def isin2D(full_array, sub_arrays):
out = np.zeros((sub_arrays.shape[0],len(full_array)),dtype=bool)
sidx = full_array.argsort()
idx = np.searchsorted(full_array, sub_arrays, sorter=sidx)
idx[idx==len(full_array)] = 0
idx0 = sidx[idx]
np.put_along_axis(out, idx0, full_array[idx0] == sub_arrays, axis=1)
return out
样本运行-
In [214]: full_array
Out[214]: array(['E', 'F', 'A', 'B', 'D', 'C'], dtype='|S1')
In [215]: sub_arrays
Out[215]:
array([['Z', 'C', 'F'],
['B', 'C', 'E']], dtype='|S1')
In [216]: isin2D(full_array, sub_arrays)
Out[216]:
array([[False, True, False, False, False, True],
[ True, False, False, True, False, True]])
我有一个非常简单的场景,我想测试二维数组的两个元素是否(分别)是更大数组的成员 - 例如:
full_array = np.array(['A','B','C','D','E','F'])
sub_arrays = np.array([['A','C','F'],
['B','C','E']])
np.isin(full_array, sub_arrays)
这给了我一个单一维度的输出:
array([ True, True, True, False, True, True])
显示 full_array 的元素是否存在于两个子数组中的任何一个中。我想要一个二维数组,显示 sub_arrays 中两个元素中的每一个相同的东西 - 所以:
array([[ True, False, True, False, False, True],
[ False, True, True, False, True, False]])
希望这是有道理的,如有任何帮助,我们将不胜感激。
广播基础
一个简单的方法是 broadcasting
在扩展其中一个数组然后沿各自的轴进行任何缩减后 -
In [140]: (full_array==sub_arrays[...,None]).any(axis=1)
Out[140]:
array([[ True, False, True, False, False, True],
[False, True, True, False, True, False]])
和searchsorted
具体案例#1
对 full_array
进行排序并且 sub_arrays
中的所有元素至少出现在 full_array
中的某个位置,我们还可以使用 np.searchsorted
-
idx = np.searchsorted(full_array, sub_arrays)
out = np.zeros((sub_arrays.shape[0],len(full_array)),dtype=bool)
np.put_along_axis(out, idx, 1, axis=1)
具体案例#2
对 full_array
进行排序,如果不是 sub_arrays
中的所有元素都保证至少出现在 full_array
中的某处,我们需要一个额外的步骤 -
idx = np.searchsorted(full_array, sub_arrays)
idx[idx==len(full_array)] = 0
out = np.zeros((sub_arrays.shape[0],len(full_array)),dtype=bool)
np.put_along_axis(out, idx, full_array[idx] == sub_arrays, axis=1)
一般案例
对于 full_array
的真正通用情况不一定要排序,我们需要使用 sorter
arg 和 searchsorted
-
def isin2D(full_array, sub_arrays):
out = np.zeros((sub_arrays.shape[0],len(full_array)),dtype=bool)
sidx = full_array.argsort()
idx = np.searchsorted(full_array, sub_arrays, sorter=sidx)
idx[idx==len(full_array)] = 0
idx0 = sidx[idx]
np.put_along_axis(out, idx0, full_array[idx0] == sub_arrays, axis=1)
return out
样本运行-
In [214]: full_array
Out[214]: array(['E', 'F', 'A', 'B', 'D', 'C'], dtype='|S1')
In [215]: sub_arrays
Out[215]:
array([['Z', 'C', 'F'],
['B', 'C', 'E']], dtype='|S1')
In [216]: isin2D(full_array, sub_arrays)
Out[216]:
array([[False, True, False, False, False, True],
[ True, False, False, True, False, True]])