可以看到,字符串‘du’是被括号括起来的,所以在结果中也有'du'这个元素,而'bai'没有被括号括起来,在结果中就不会有‘bai’这个元素。
re.findall这个函数是我在爬虫项目中用的最多的一个函数了,它可以把所有匹配的结果以列表的形式返回,而不是像match和search一样只匹配一个结果。我们来试一下:
st = 'www.baidu.com ' result = re.findall(r'www\.(\w*)\.(com)', st) print(result)[('baidu', 'com'), ('taobao', 'com')]
re.finditer这个函数和findall的功能一样。不同之处在于这个函数返回的结果是一个生成器,而生成器中的每一项是一个match对象,我们一起来看一下:
st = 'www.baidu.com ' result = re.finditer(r'www\.(\w*)\.(com)', st) print(result.__next__().group(0, 1, 2)) print(next(result).groups(2)) ('www.baidu.com', 'baidu', 'com') ('taobao', 'com') re.sub这个函数是用来替换字符串的。可以将匹配的字符串替换成指定的字符串,我们来看一下:
st = 'www.111.com ' result = re.sub(r'\d+', 'OK', st) print(result)结果: www.OK.com
我们的第二个参数除了可以是一个给定的字符串还可以是一个函数:
def toOK(matched): value = matched.group() return str(int(value)*2) st = 'www.111.com ' result = re.sub(r'\d+', toOK, st) print(result)结果: www.444.com
好,我们今天的review就到这里了,你掌握了吗?对于正则你还知道哪些更高级的用法呢,留言告诉我吧。