删除 list/tuple 包含 nan 的最快方法
Fastest way to remove the list/tuple contains nan
我遇到了 解释的相同问题:
我有两个形状为 3000 的列表,例如:
a = list(range(3000))
b = list(range(3000))
一些元素是不同种类的 NAN,一些元素是字符串,大部分是整数和浮点数,比如:
a[0] = np.nan
b[1] = 'hello'
a[2] = 2.0
b[3] = float('nan')
然后我需要将它们压缩在一起并删除包含 nan 的元组,我这样做:
merge = zip(a, b)
c = [x for x in merge if not any(isinstance(i, float) and np.isnan(i) for i in x)]
但是性能不是很好,我需要做很多检查,所以太费时间了。
当我 运行 1000 次时大约需要 2.2 秒。
然后我尝试这样做:
c = [x for x in merge if all(i == i for i in x)]
当我 运行 1000 次时大约需要 1.1 秒。
我想知道是否有更快的方法来删除包含 NaN 的元组?
请注意,元组中有多种类型的 NaN。
您可以将 nan
放在一个集合中并检查与元组的交集。您可以使用列表理解或 itertools.filterfalse
:
来执行此操作
In [17]: a = range(3000)
In [18]: merge = list(zip(a, a))
In [19]: %timeit [x for x in merge if not nans.intersection(x)]
1000 loops, best of 3: 566 us per loop
In [20]: %timeit [x for x in merge if all(i == i for i in x)]
1000 loops, best of 3: 1.13 ms per loop
In [21]: %timeit list(filterfalse(nans.intersection, merge))
1000 loops, best of 3: 402 us per loop
使用 filterfalse
的最后一种方法大约快 3 倍。
我遇到了
我有两个形状为 3000 的列表,例如:
a = list(range(3000))
b = list(range(3000))
一些元素是不同种类的 NAN,一些元素是字符串,大部分是整数和浮点数,比如:
a[0] = np.nan
b[1] = 'hello'
a[2] = 2.0
b[3] = float('nan')
然后我需要将它们压缩在一起并删除包含 nan 的元组,我这样做:
merge = zip(a, b)
c = [x for x in merge if not any(isinstance(i, float) and np.isnan(i) for i in x)]
但是性能不是很好,我需要做很多检查,所以太费时间了。
当我 运行 1000 次时大约需要 2.2 秒。
然后我尝试这样做:
c = [x for x in merge if all(i == i for i in x)]
当我 运行 1000 次时大约需要 1.1 秒。
我想知道是否有更快的方法来删除包含 NaN 的元组? 请注意,元组中有多种类型的 NaN。
您可以将 nan
放在一个集合中并检查与元组的交集。您可以使用列表理解或 itertools.filterfalse
:
In [17]: a = range(3000)
In [18]: merge = list(zip(a, a))
In [19]: %timeit [x for x in merge if not nans.intersection(x)]
1000 loops, best of 3: 566 us per loop
In [20]: %timeit [x for x in merge if all(i == i for i in x)]
1000 loops, best of 3: 1.13 ms per loop
In [21]: %timeit list(filterfalse(nans.intersection, merge))
1000 loops, best of 3: 402 us per loop
使用 filterfalse
的最后一种方法大约快 3 倍。