深入浅析正则表达式re模块（部分）(3)

日期：2020-06-19 栏目：程序人生浏览：次

1.贪婪匹配：在量词范围允许的情况下,尽量多的匹配内容 .*x 表示匹配任意字符任意多次数遇到最后一个x才停下来回溯算法： 2.非贪婪(惰性)匹配：总是在量词范围内尽量少的匹配内容。前面的*,+等都是贪婪匹配，也就是尽可能匹配，后面加?号使其变成惰性匹配 .*?x 表示匹配任意字符任意多次数但是一旦遇到x就停下来 .+?x 匹配任意内容至少1次遇到x就停止元字符+量词+？ ---> 惰性匹配几个常用的非贪婪匹配： *? 重复任意次，但尽可能少重复 +? 重复1次或更多次，但尽可能少重复 ?? 重复0次或1次，但尽可能少重复 {n,m}? 重复n到m次，但尽可能少重复 {n,}? 重复n次以上，但尽可能少重复例：匹配身份证号码：18/15位的身份证号 # 15位：首位数字为1-9，总共15位 [1-9]\d{14} # 18位：首位数字为1-9，末位为0-9或者X，总共18位 [1-9]\d{16}[\dx] [1-9]\d{16}[0-9x] #1： [1-9]\d{16}[0-9x]|[1-9]\d{14} #从一个大文件中找到所有符合规则的内容。表示先匹配[1-9]\d{16}[0-9x]如果没有匹配上就匹配[1-9]\d{14} ^([1-9]\d{16}[0-9x]|[1-9]\d{14})$ #检测一个输入的字符串是否合法 #2：简化 [1-9]\d{14}(\d{2}[\dx])? #从一个大文件中找到所有符合规则的内容 ^[1-9]\d{14}(\d{2}[\dx])?$ #检测一个输入的字符串是否合法。()表示分组，将\d{2}[\dx]分成一组，就可以整体约束他们出现的次数为0-1次例：规则：1\d*?3 待匹配内容：1243333344 匹配结果：1243 规则：1\d*3 待匹配内容：1243333344 匹配结果：12433333 re模块： # findall 还是按照完整的正则进行匹配,只是显示括号里匹配到的内容。取所有符合条件的,优先显示分组中的。 ret = re.findall('9\d\d','19740ash93010uru') print(ret)#['974', '930'] ret = re.findall('9(\d)\d','19740ash93010uru') print(ret)#['7', '3'] # search 还是按照完整的正则进行匹配,显示也显示匹配到的第一个内容,但是我们可以通过给group方法传参数,来获取具体分组，即（）中的内容。 search 只取第一个符合条件的,没有优先显示这件事儿得到的结果是一个变量变量.group() 的结果完全和变量.group(0)的结果一致变量.group(n) 的形式来指定获取第n个分组中匹配到的内容 ret = re.search('9(\d)(\d)','19740ash93010uru') print(ret) # 变量 <_sre.SRE_Match object; span=(1, 4), match='974'> if ret: print(ret.group())#974 #ret.group(0) 0 默认不写 print(ret.group(1))#7 print(ret.group(2))#4 # 为什么在search中不需要分组优先而在findall中需要? 加上括号是为了对真正需要的内容进行提取。为什么要用分组? 把想要的内容放分组里如果我们要查找的内容在一个复杂的环境中，我们要查的内容并没有一个突出的与众不同的特点甚至会和不需要的杂乱的数据混合在一起，这个时候我们就需要把所有的数据都统计出来,然后对这个数据进行筛选,把我们真正需要的数据对应的正则表达式用()圈起来，这样我们就可以筛选出真正需要的数据了。 # 如何取消分组优先如果在写正则的时候由于不得已的原因，导致不要的内容也得写在分组里，通过 ?: 取消这个分组的优先显示 # (?:) 取消这个分组的优先显示 #findall ret = re.findall('<\w+>(\w+)</\w+>','<h1>askh930s02391j192agsj</h1>') print(ret)#['askh930s02391j192agsj'] # search ret = re.search('<(\w+)>(\w+)</\w+>','<h1>askh930s02391j192agsj</h1>') print(ret.group())#<h1>askh930s02391j192agsj</h1> print(ret.group(1))#h1 print(ret.group(2))#askh930s02391j192agsj #从exp中匹配出第一个加法，第一个减法， a+b 或者是a-b 并且计算他们的结果 exp = '2-3*(5+6)' ret = re.search('(\d+)[+](\d+)',exp) print(ret) print(ret.group(1))#5 print(ret.group(2))#6 print(int(ret.group(1)) + int(ret.group(2)))#11 #将豆瓣源码放到douban.html，从中获取电影名： with open('douban.html',encoding='utf-8') as f: content = f.read() ret = re.findall('<span>(.*?)</span>(?:\s*<span>.*?</span>)?',content) print(ret) #除了霸王别姬，其他电影都是肖申克的救赎这种格式的。 (.*?) 要显示的电影名其中？是非贪婪匹配的标志 (?:\s*<span>.*?</span>)? ?: 取消这个分组的优先显示，整个（）内都不显示 \s* 两行代码之间所有的空字符 .*? 电影英文名？该部分出现0次或者1次 # 什么是爬虫 # 通过代码获取到一个网页的源码,需要的是源码中嵌着的网页上的内容 -- 正则表达式 #先安装扩展模块 File--Settings--Project Interpreter-- + --找到包---Install Package import requests ret = requests.get('https://movie.douban.com/top250?start=0&filter=') print(ret.content.decode('utf-8'))

总结

转载注明出处：https://www.heiqu.com/wjxpgw.html

深入浅析正则表达式re模块（部分）(3)

相关推荐