本节我们看一下正则表达式的相关用法,正则表达式是处理字符串的强大的工具,它有自己特定的语法结构,有了它,实现字符串的检索、替换、匹配验证都不在话下。
当然对于爬虫来说,有了它,我们从HTML里面提取我们想要的信息就非常方便了。
实例引入
说了这么多,可能我们对它到底是个什么还是比较模糊,下面我们就用几个实例来感受一下正则表达式的用法。
我们打开开源中国提供的正则表达式测试工具,打开之后我们可以输入待匹配的文本,然后选择常用的正则表达式,就可以从我们输入的文本中得出相应的匹配结果了。
例如我们在这里输入待匹配的文本如下:
Hello, my phone number is 010-86432100 and email is cqc@cuiqingcai.com, and my website is .
这段字符串中包含了一个电话号码和一个电子邮件,接下来我们就尝试用正则表达式提取出来。
我们在网页中选择匹配Email地址,就可以看到在下方出现了文本中的Email。如果我们选择了匹配网址URL,就可以看到在下方出现了文本中的URL。是不是非常神奇?
其实,在这里就是用了正则表达式匹配,也就是用了一定的规则将特定的文本提取出来。比如电子邮件它开头是一段字符串,然后是一个@符号,然后就是某个域名,这是有特定的组成格式的。另外对于URL,开头是协议类型,然后是冒号加双斜线,然后是域名加路径。
对于URL来说,我们就可以用下面的正则表达式匹配:
[a-zA-z]+://1*
如果我们用这个正则表达式去匹配一个字符串,如果这个字符串中包含类似URL的文本,那就会被提取出来。
这个正则表达式看上去是乱糟糟的一团,其实不然,这里面都是有特定的语法规则的。比如a-z代表匹配任意的小写字母,s表示匹配任意的空白字符,*就代表匹配前面的字符任意多个,这一长串的正则表达式就是这么多匹配规则的组合,最后实现特定的匹配功能。
写好正则表达式后,我们就可以拿它去一个长字符串里匹配查找了,不论这个字符串里面有什么,只要符合我们写的规则,统统可以找出来。那么对于网页来说,如果我们想找出网页源代码里有多少URL,就可以用匹配URL的正则表达式去匹配,就可以得到源码中的URL了。
在上面我们说了几个匹配规则,那么正则表达式的规则到底有多少?那么在这里把常用的匹配规则总结一下:
模式描述
w匹配字母数字及下划线
W匹配非字母数字及下划线
s匹配任意空白字符,等价于 [tnrf].
S匹配任意非空字符
d匹配任意数字,等价于 [0-9]
D匹配任意非数字
A匹配字符串开始
Z匹配字符串结束,如果是存在换行,只匹配到换行前的结束字符串
z匹配字符串结束
G匹配最后匹配完成的位置
n匹配一个换行符
t匹配一个制表符
^匹配字符串的开头
$匹配字符串的末尾。
.匹配任意字符,除了换行符,当re.DOTALL标记被指定时,则可以匹配包括换行符的任意字符。
[...]用来表示一组字符,单独列出:[amk] 匹配 'a','m'或'k'
2不在[]中的字符:3 匹配除了a,b,c之外的字符。
*匹配0个或多个的表达式。
+匹配1个或多个的表达式。
?匹配0个或1个由前面的正则表达式定义的片段,非贪婪方式
{n}精确匹配n个前面表达式。
{n, m}匹配 n 到 m 次由前面的正则表达式定义的片段,贪婪方式
a|b匹配a或b
( )匹配括号内的表达式,也表示一个组
可能完了之后就有点晕晕的了把,不用担心,下面我们会详细讲解下一些常见的规则的用法。怎么用它来从网页中提取我们想要的信息。
Python中使用
其实正则表达式不是Python独有的,它在其他编程语言中也可以使用,但是Python的re库提供了整个正则表达式的实现,利用re库我们就可以在Python中使用正则表达式来,在Python中写正则表达式几乎都是用的这个库。
下面我们就来了解下它的用法。
match()
在这里首先介绍第一个常用的匹配方法,match()方法,我们向这个方法传入要匹配的字符串以及正则表达式,就可以来检测这个正则表达式是否匹配字符串了。
match()方法会尝试从字符串的起始位置匹配正则表达式,如果匹配,就返回匹配成功的结果,如果不匹配,那就返回None。
我们用一个实例来感受一下: