如何向量化此操作

Question

假设我有两个列表（长度总是相同）：

l0 = [0, 4, 4, 4, 0, 0, 0, 8, 8, 0] 
l1 = [0, 1, 1, 1, 0, 0, 0, 8, 8, 8]

在按元素比较这些列表时，我需要应用以下交集和并集规则：

# union and intersect
uni = [0]*len(l0)
intersec = [0]*len(l0)
for i in range(len(l0)):
    if l0[i] == l1[i]:
        uni[i] = l0[i]
        intersec[i] = l0[i]
    else:
        intersec[i] = 0  
        if l0[i] == 0:
            uni[i] = l1[i]
        elif l1[i] == 0:
            uni[i] = l0[i]
        else:
            uni[i] = [l0[i], l1[i]]

因此，期望的输出是：

uni: [0, [4, 1], [4, 1], [4, 1], 0, 0, 0, 8, 8, 8] 
intersec: [0, 0, 0, 0, 0, 0, 0, 8, 8, 0]

虽然这可行，但我需要对数百个非常大的列表（每个列表都有数千个元素）执行此操作，因此我正在寻找一种对其进行矢量化的方法。我尝试使用 np.where 和各种屏蔽策略，但效果并不好。欢迎提出任何建议。

* 编辑 *

关于

uni: [0, [4, 1], [4, 1], [4, 1], 0, 0, 0, 8, 8, 8]

对比

uni: [0, [4, 1], [4, 1], [4, 1], 0, 0, 0, 8, 8, [0, 8]]

我仍然在脑海中与 8 和 [0, 8] 作斗争。这些列表源自系统注释中的 BIO 标签（参见 IOB labeling of text chunks），其中每个列表元素是文档中的字符索引，而 vakue 是分配的枚举标签。 0代表一个标签代表没有注释（即，用于确定混淆矩阵中的负数）；而非零元素表示为该字符分配的枚举标签。由于我忽略了真正的否定，我想我可以说 8 等同于 [0, 8]。至于这是否简化了事情，我还不确定。

* 编辑 2 *

我使用 [0, 8] 是为了让事情变得简单，并使 intersection 和 union 的定义与集合论保持一致。

Answer 1

我不会将它们称为 'intersection' 和 'union'，因为这些操作在集合上具有明确定义的含义，而您要执行的操作都不是它们。

然而，做你想做的：

l0 = [0, 4, 4, 4, 0, 0, 0, 8, 8, 0]
l1 = [0, 1, 1, 1, 0, 0, 0, 8, 8, 8]

values = [
    (x
     if x == y else 0,
     0
     if x == y == 0
     else x if y == 0
     else y if x == 0
     else [x, y]) 
    for x, y in zip(l0, l1)
]

result_a, result_b = map(list, zip(*values))

print(result_a)
print(result_b)

这对于数千甚至数百万个元素来说绰绰有余，因为操作非常基础。当然，如果我们说的是数十亿，您可能还是想看看 numpy。

Answer 2

联合的半向量化解决方案和交集的完整解决方案：

import numpy as np

l0 = np.array(l0)
l1 = np.array(l1)
intersec = np.zeros(l0.shape[0])
intersec_idx = np.where(l0==l1)
intersec[intersec_idx] = l0[intersec_idx]
intersec = intersec.astype(int).tolist()

union = np.zeros(l0.shape[0])
union_idx = np.where(l0==l1)
union[union_idx] = l0[union_idx]
no_union_idx = np.where(l0!=l1)
union = union.astype(int).tolist()
for idx in no_union_idx[0]:
    union[idx] = [l0[idx], l1[idx]]

和输出：

>>> intersection
[0, 0, 0, 0, 0, 0, 0, 8, 8, 0]
>>> union  
[0, [4, 1], [4, 1], [4, 1], 0, 0, 0, 8, 8, [0, 8]]

注意：我认为您原来的联合解决方案是不正确的。查看最后的输出 8 vs [0,8]

如何向量化此操作

How to vectorize this operation

python

numpy

vectorization