如何在单个 python 可迭代对象上同时拥有多个迭代器?
How can I have multiple iterators over a single python iterable at the same time?
我想比较我的可迭代对象中的所有元素的组合。以下可重现的示例只是模仿普通列表的功能,但演示了我的问题。在这个带有 ["A","B","C","D"] 列表的示例中,我想获得以下 16 行输出,每个项目的每个组合彼此。包含 100 个项目的列表应生成 100*100=10,000 行。
A A True
A B False
A C False
... 10 more lines ...
D B False
D C False
D D True
下面的代码似乎应该可以完成这项工作。
class C():
def __init__(self):
self.stuff = ["A","B","C","D"]
def __iter__(self):
self.idx = 0
return self
def __next__(self):
self.idx += 1
if self.idx > len(self.stuff):
raise StopIteration
else:
return self.stuff[self.idx - 1]
thing = C()
for x in thing:
for y in thing:
print(x, y, x==y)
但是在完成 y 循环之后,x 循环似乎也完成了,即使它只使用了可迭代对象中的第一项。
A A True
A B False
A C False
A D False
经过多次搜索,我最终尝试了以下代码,希望 itertools.tee 允许我对同一数据使用两个独立的迭代器:
import itertools
thing = C()
thing_one, thing_two = itertools.tee(thing)
for x in thing_one:
for y in thing_two:
print(x, y, x==y)
但是我得到了和以前一样的输出。
这表示的真实世界对象是目录和文件结构的模型,其中包含不同数量的文件和子目录,位于树的不同深度。它嵌套了数千个成员的链接,并正确地迭代了一次,就像这个例子一样。但它也会根据比较需要在其许多内部对象中进行昂贵的处理,如果我必须在迭代之前制作它的完整副本,这最终会使工作量加倍。如果可能的话,我真的很想使用多个迭代器,指向一个包含所有数据的对象。
编辑答案:问题代码中的关键缺陷,在所有答案中都指出,是单个内部 self.idx 变量无法独立处理多个调用者。接受的答案最适合我的真实 class(在这个可重现的示例中过于简单化),另一个答案为更简单的数据结构提供了一个简单、优雅的解决方案,如此处显示的列表。
你的__iter__
完全坏了。它并没有在每次调用时实际创建一个新的迭代器,它只是在 self
和 returns self
上重置一些状态。这意味着您实际上不能在对象上同时拥有多个迭代器,并且在对象上的另一个循环处于活动状态时对 __iter__
的任何调用都会干扰现有循环。
您需要实际创建一个新对象。最简单的方法是使用 yield
语法编写生成器函数。生成器函数每次都会自动return一个新的迭代器对象:
class C(object):
def __init__(self):
self.stuff = ['A', 'B', 'C', 'D']
def __iter__(self):
for thing in self.stuff:
yield thing
实际上不可能创建一个容器 class 作为它自己的迭代器。容器不应该知道迭代器的状态,迭代器也不需要知道容器的内容,它只需要知道对应的容器是哪个对象,"where"是什么。如果您混合使用迭代器和容器,不同的迭代器将彼此共享状态(在您的情况下为 self.idx
),这将不会给出正确的结果(它们读取和修改相同的变量)。
这就是为什么所有内置类型都有一个单独的迭代器 class(甚至有些有一个反向迭代器 class)的原因:
>>> l = [1, 2, 3]
>>> iter(l)
<list_iterator at 0x15e360c86d8>
>>> reversed(l)
<list_reverseiterator at 0x15e360a5940>
>>> t = (1, 2, 3)
>>> iter(t)
<tuple_iterator at 0x15e363fb320>
>>> s = '123'
>>> iter(s)
<str_iterator at 0x15e363fb438>
所以,基本上你可以在 __iter__
中 return iter(self.stuff)
并完全删除 __next__
因为 list_iterator
知道如何遍历列表:
class C:
def __init__(self):
self.stuff = ["A","B","C","D"]
def __iter__(self):
return iter(self.stuff)
thing = C()
for x in thing:
for y in thing:
print(x, y, x==y)
像预期的那样打印 16 行。
如果您的目标是制作自己的迭代器 class,则需要两个 class(如果您想自己实现反向迭代器,则需要 3 个)。
class C:
def __init__(self):
self.stuff = ["A","B","C","D"]
def __iter__(self):
return C_iterator(self)
def __reversed__(self):
return C_reversed_iterator(self)
class C_iterator:
def __init__(self, parent):
self.idx = 0
self.parent = parent
def __iter__(self):
return self
def __next__(self):
self.idx += 1
if self.idx > len(self.parent.stuff):
raise StopIteration
else:
return self.parent.stuff[self.idx - 1]
thing = C()
for x in thing:
for y in thing:
print(x, y, x==y)
同样有效。
为了完整起见,这里是反向迭代器的一种可能实现:
class C_reversed_iterator:
def __init__(self, parent):
self.parent = parent
self.idx = len(parent.stuff) + 1
def __iter__(self):
return self
def __next__(self):
self.idx -= 1
if self.idx <= 0:
raise StopIteration
else:
return self.parent.stuff[self.idx - 1]
thing = C()
for x in reversed(thing):
for y in reversed(thing):
print(x, y, x==y)
您可以使用生成器来代替定义您自己的迭代器。另一个答案中已经显示了一种方法:
class C:
def __init__(self):
self.stuff = ["A","B","C","D"]
def __iter__(self):
yield from self.stuff
def __reversed__(self):
yield from self.stuff[::-1]
或者显式委托给一个生成器函数(这实际上等同于上面的,但可能更清楚它是一个新的生成对象):
def C_iterator(obj):
for item in obj.stuff:
yield item
def C_reverse_iterator(obj):
for item in obj.stuff[::-1]:
yield item
class C:
def __init__(self):
self.stuff = ["A","B","C","D"]
def __iter__(self):
return C_iterator(self)
def __reversed__(self):
return C_reverse_iterator(self)
注意:您不必实现 __reversed__
迭代器。那只是作为答案的附加 "feature"。
我想比较我的可迭代对象中的所有元素的组合。以下可重现的示例只是模仿普通列表的功能,但演示了我的问题。在这个带有 ["A","B","C","D"] 列表的示例中,我想获得以下 16 行输出,每个项目的每个组合彼此。包含 100 个项目的列表应生成 100*100=10,000 行。
A A True
A B False
A C False
... 10 more lines ...
D B False
D C False
D D True
下面的代码似乎应该可以完成这项工作。
class C():
def __init__(self):
self.stuff = ["A","B","C","D"]
def __iter__(self):
self.idx = 0
return self
def __next__(self):
self.idx += 1
if self.idx > len(self.stuff):
raise StopIteration
else:
return self.stuff[self.idx - 1]
thing = C()
for x in thing:
for y in thing:
print(x, y, x==y)
但是在完成 y 循环之后,x 循环似乎也完成了,即使它只使用了可迭代对象中的第一项。
A A True
A B False
A C False
A D False
经过多次搜索,我最终尝试了以下代码,希望 itertools.tee 允许我对同一数据使用两个独立的迭代器:
import itertools
thing = C()
thing_one, thing_two = itertools.tee(thing)
for x in thing_one:
for y in thing_two:
print(x, y, x==y)
但是我得到了和以前一样的输出。
这表示的真实世界对象是目录和文件结构的模型,其中包含不同数量的文件和子目录,位于树的不同深度。它嵌套了数千个成员的链接,并正确地迭代了一次,就像这个例子一样。但它也会根据比较需要在其许多内部对象中进行昂贵的处理,如果我必须在迭代之前制作它的完整副本,这最终会使工作量加倍。如果可能的话,我真的很想使用多个迭代器,指向一个包含所有数据的对象。
编辑答案:问题代码中的关键缺陷,在所有答案中都指出,是单个内部 self.idx 变量无法独立处理多个调用者。接受的答案最适合我的真实 class(在这个可重现的示例中过于简单化),另一个答案为更简单的数据结构提供了一个简单、优雅的解决方案,如此处显示的列表。
你的__iter__
完全坏了。它并没有在每次调用时实际创建一个新的迭代器,它只是在 self
和 returns self
上重置一些状态。这意味着您实际上不能在对象上同时拥有多个迭代器,并且在对象上的另一个循环处于活动状态时对 __iter__
的任何调用都会干扰现有循环。
您需要实际创建一个新对象。最简单的方法是使用 yield
语法编写生成器函数。生成器函数每次都会自动return一个新的迭代器对象:
class C(object):
def __init__(self):
self.stuff = ['A', 'B', 'C', 'D']
def __iter__(self):
for thing in self.stuff:
yield thing
实际上不可能创建一个容器 class 作为它自己的迭代器。容器不应该知道迭代器的状态,迭代器也不需要知道容器的内容,它只需要知道对应的容器是哪个对象,"where"是什么。如果您混合使用迭代器和容器,不同的迭代器将彼此共享状态(在您的情况下为 self.idx
),这将不会给出正确的结果(它们读取和修改相同的变量)。
这就是为什么所有内置类型都有一个单独的迭代器 class(甚至有些有一个反向迭代器 class)的原因:
>>> l = [1, 2, 3]
>>> iter(l)
<list_iterator at 0x15e360c86d8>
>>> reversed(l)
<list_reverseiterator at 0x15e360a5940>
>>> t = (1, 2, 3)
>>> iter(t)
<tuple_iterator at 0x15e363fb320>
>>> s = '123'
>>> iter(s)
<str_iterator at 0x15e363fb438>
所以,基本上你可以在 __iter__
中 return iter(self.stuff)
并完全删除 __next__
因为 list_iterator
知道如何遍历列表:
class C:
def __init__(self):
self.stuff = ["A","B","C","D"]
def __iter__(self):
return iter(self.stuff)
thing = C()
for x in thing:
for y in thing:
print(x, y, x==y)
像预期的那样打印 16 行。
如果您的目标是制作自己的迭代器 class,则需要两个 class(如果您想自己实现反向迭代器,则需要 3 个)。
class C:
def __init__(self):
self.stuff = ["A","B","C","D"]
def __iter__(self):
return C_iterator(self)
def __reversed__(self):
return C_reversed_iterator(self)
class C_iterator:
def __init__(self, parent):
self.idx = 0
self.parent = parent
def __iter__(self):
return self
def __next__(self):
self.idx += 1
if self.idx > len(self.parent.stuff):
raise StopIteration
else:
return self.parent.stuff[self.idx - 1]
thing = C()
for x in thing:
for y in thing:
print(x, y, x==y)
同样有效。
为了完整起见,这里是反向迭代器的一种可能实现:
class C_reversed_iterator:
def __init__(self, parent):
self.parent = parent
self.idx = len(parent.stuff) + 1
def __iter__(self):
return self
def __next__(self):
self.idx -= 1
if self.idx <= 0:
raise StopIteration
else:
return self.parent.stuff[self.idx - 1]
thing = C()
for x in reversed(thing):
for y in reversed(thing):
print(x, y, x==y)
您可以使用生成器来代替定义您自己的迭代器。另一个答案中已经显示了一种方法:
class C:
def __init__(self):
self.stuff = ["A","B","C","D"]
def __iter__(self):
yield from self.stuff
def __reversed__(self):
yield from self.stuff[::-1]
或者显式委托给一个生成器函数(这实际上等同于上面的,但可能更清楚它是一个新的生成对象):
def C_iterator(obj):
for item in obj.stuff:
yield item
def C_reverse_iterator(obj):
for item in obj.stuff[::-1]:
yield item
class C:
def __init__(self):
self.stuff = ["A","B","C","D"]
def __iter__(self):
return C_iterator(self)
def __reversed__(self):
return C_reverse_iterator(self)
注意:您不必实现 __reversed__
迭代器。那只是作为答案的附加 "feature"。