error: out of bounds when searching for identical rows in a numpy array

error: out of bounds when searching for identical rows in a numpy array

给定一个 2300 行和 44 列的 numpy 数组,我希望我的脚本检查相等的行,并 return 这些相等行的数组与原始矩阵中的相应索引。

示例:

1 0 0 0 0
0 0 0 0 0 
0 0 0 0 0 
0 0 0 0 0 
1 0 0 0 0
1 2 3 4 5

结果:

equal_arrays1 = [1,2,3]
equal_arrays2 = [0,4]

我的原始数据集由从 1323 到 1699 的零行组成。那么结果应该是:

equal_array1=[1323,...,1699]

到目前为止我所做的是使用以下代码:

import numpy as np


input_data = np.load('1IN.npy')
print(np.shape(input_data))

for i in range(len(input_data)):
   for j in range(i+1,len(input_data)):
      if np.array_equal(input_data[i],input_data[j]):
          if np.array_equal(input_data[:,i],input_data[:,j]):
           print (i, j),
      else: break

但这导致了错误:

if np.array_equal(input_data[:,i],input_data[:,j])   :

IndexError: index 1302 is out of bounds for axis 1 with size 44

我认为这不是实现我想要实现的目标的最佳方式,所以如果有人有更好的选择或者可以解释我需要解决的问题,我会很高兴,因为我是新手python.

您只想检查行,所以删除对列相等性的检查:

matching_pairs = []

for i in range(len(input_data)):
   for j in range(i+1,len(input_data)):
      if np.array_equal(input_data[i],input_data[j]):
         matching_pairs.append((i, j))
         # break?

print(matching_pairs)

不确定休息时间是什么?如果您发现 j 与您的 i 匹配,您可能想要中断,但如果没有找到它,您不想中断,否则您只会检查 ii+1 仅此而已。