Python的Iterator对象表示的是一个数据流,Iterator对象可以被next()函数调用并不断返回下一个数据,直到没有数据时抛出StopIteration错误。可以把这个数据流看做是一个有序序列,但我们却不能提前知道序列的长度,只能不断通过next()函数实现按需计算下一个数据,所以Iterator的计算是惰性的,只有在需要返回下一个数据时它才会计算。
一个很常见的应用就是:Python在处理列表的时候,是直接把整个列表读进内存的,当遇到大量样本时的时候会变得很慢。而迭代器的优势在于只把需要的元素读进内存,因此占用内存更少。
换句话说,迭代器是一种惰性求值模式,它是有状态的,只有在调用时才返回值,没有调用的时候就等待下一次调用。这样就节省了大量内存空间。
4.for循环的工作机制
有了上面2个例子,就可以总结一下在可迭代对象与迭代器中的For循环工作机制了。
当对象本身就是迭代器时,For循环工作机制:
1.调用 __iter__方法,返回自身self,也就是返回迭代器。
2.不断地调用迭代器的next()方法,每次按序返回迭代器中的一个值。
3.迭代到最后没有元素时,就抛出异常 StopIteration。
在可迭代对象中,for循环工作机制:
1.先判断对象是否为可迭代对象(等价于判断有没有__iter__或__getitem__方法),没有的话直接报错,抛出TypeError异常。有的话,调用 __iter__方法,返回一个迭代器。
2.在python内部不断地调用迭代器的__next__方法,每次按序返回迭代器中的一个值。
3.迭代到最后没有元素时,就抛出异常 StopIteration,这个异常 python 自己会处理,不会暴露给开发者。
借用网络上的一张图直观理解一下:
此外,还要注意,python中的for循环其实兼容了两种机制:
1.如果对象有__iter__会返回一个迭代器。
2.如果对象没有__iter__,但是实现了__getitem__,会改用下标迭代的方式。
__getitem__可以帮助一个对象进行取数和切片操作。
当for发现没有__iter__但是有__getitem__的时候,会从0开始依次读取相应的下标,直到发生IndexError为止,这是一种旧的迭代协议。iter方法也会处理这种情况,在不存在__iter__的时候,返回一个下标迭代的iterator对象来代替。一个重要的例子是str,字符串就是没有__iter__方法的,但是却依然可以迭代,原因就是其在for循环时调用了__getitem__方法。
看一个例子:
from collections import Iterable, Iterator
class Student(object):
def __init__(self,score):
self.score=score
def __getitem__(self,n):
return self.score[n]
test= Student([80,90,95])
print isinstance(test, Iterable)
print isinstance(test, Iterator)
print isinstance(iter(test), Iterable)
print isinstance(iter(test), Iterator)
for i in test:
print i
##result
False
False
True
True
80
90
95
for i in range(0,3):
print test[i]
##result
80
90
95
for i in iter(test):
print i
##result
80
90
95
可以看到,实现了__getitem__方法的对象本身,尽管不是iterable与iterator,仍旧是可以调用for循环的。
通过iter方法,返回一个下标迭代的iterator对象。
5.generator的原理
最后说一下生成器,生成器是一种特殊的迭代器,当然也是可迭代对象。
对于生成器,Python会自动实现迭代器协议,以便应用到迭代中(如for循环,sum函数)。由于生成器自动实现了迭代器协议,所以,我们可以调用它的next方法,并且,在没有值可以返回的时候,生成器自动产生StopIteration异常。
创建生成器的方法:将return 改为yield。具体的实现网络上教程很多,不细说了。
6.总结
看到一幅图片很好的描述了本文的所有内容,就拿它作为文末的总结吧!