正则基础之环视 Lookaround

日期：2020-06-24 栏目：程序人生浏览：次

1 环视基础

环视只进行子表达式的匹配，不占有字符，匹配到的内容不保存到最终的匹配结果，是零宽度的。环视匹配的最终结果就是一个位置。

环视的作用相当于对所在位置加了一个附加条件，只有满足这个条件，环视子表达式才能匹配成功。

环视按照方向划分有顺序和逆序两种，按照是否匹配有肯定和否定两种，组合起来就有四种环视。顺序环视相当于在当前位置右侧附加一个条件，而逆序环视相当于在当前位置左侧附加一个条件。

表达式

说明

(?<=Expression)

逆序肯定环视，表示所在位置左侧能够匹配Expression

(?<!Expression)

逆序否定环视，表示所在位置左侧不能匹配Expression

(?=Expression)

顺序肯定环视，表示所在位置右侧能够匹配Expression

(?!Expression)

顺序否定环视，表示所在位置右侧不能匹配Expression

对于环视的叫法，有的文档里叫预搜索，有的叫什么什么断言的，这里使用了更多人容易接受的《精通正则表达式》中“环视”的叫法，其实叫什么无所谓，只要知道是什么作用就是了，就这么几个语法规则，还是很容易记的

2 环视匹配原理

环视是正则中的一个难点，对于环视的理解，可以从应用和原理两个角度理解，如果想理解得更清晰、深入一些，还是从原理的角度理解好一些，正则匹配基本原理参考 NFA引擎匹配原理。

上面提到环视相当于对“所在位置”附加了一个条件，环视的难点在于找到这个“位置”，这一点解决了，环视也就没什么秘密可言了。

顺序环视匹配过程

对于顺序肯定环视(?=Expression)来说，当子表达式Expression匹配成功时，(?=Expression)匹配成功，并报告(?=Expression)匹配当前位置成功。

对于顺序否定环视(?!Expression)来说，当子表达式Expression匹配成功时，(?!Expression)匹配失败；当子表达式Expression匹配失败时，(?!Expression)匹配成功，并报告(?!Expression)匹配当前位置成功；

顺序肯定环视的例子已在NFA引擎匹配原理中讲解过了，这里再讲解一下顺序否定环视。

正则基础之环视 Lookaround

源字符串：aa<p>one</p>bb<div>two</div>cc

正则表达式：<(?!/?p\b)[^>]+>

这个正则的意义就是匹配除<p…>或</p>之外的其余标签。

匹配过程：

正则基础之环视 Lookaround

首先由字符“<”取得控制权，从位置0开始匹配，由于“<”匹配“a”失败，在位置0处整个表达式匹配失败，第一次迭代匹配失败，正则引擎向前传动，由位置1处开始尝试第二次迭代匹配。

重复以上过程，直到位置2，“<”匹配“<”成功，控制权交给“(?!/?p\b)”；“(?!/?p\b)”子表达式取得控制权后，进行内部子表达式的匹配。首先由“/?”取得控制权，尝试匹配“p”失败，进行回溯，不匹配，控制权交给“p”；由“p”来尝试匹配“p”，匹配成功，控制权交给“\b”；由“\b”来尝试匹配位置4，匹配成功。此时子表达式匹配完成，“/?p\b”匹配成功，那么环视表达式“(?!/?p\b)”就匹配失败。在位置2处整个表达式匹配失败，新一轮迭代匹配失败，正则引擎向前传动，由位置3处开始尝试下一轮迭代匹配。

在位置8处也会遇到一轮“/?p\b”匹配“/p”成功，而导致环视表达式“(?!/?p\b)”匹配失败，从而导致整个表达式匹配失败的过程。

重复以上过程，直到位置14，“<”匹配“<”成功，控制权交给“(?!/?p\b)”；“/?”尝试匹配“d”失败，进行回溯，不匹配，控制权交给“p”；由“p”来尝试匹配“d”，匹配失败，已经没有备选状态可供回溯，匹配失败。此时子表达式匹配完成，“/?p\b”匹配失败，那么环视表达式“(?!/?p\b)”就匹配成功。匹配的结果是位置15，然后控制权交给“[^>]+”；由“[^>]+”从位置15进行尝试匹配，可以成功匹配到“div”，控制权交给“>”；由“>”来匹配“>”。

此时正则表达式匹配完成，报告匹配成功。匹配结果为“<div>”，开始位置为14，结束位置为19。其中“<”匹配“<”，“(?!/?p\b)”匹配位置15，“[^>]+”匹配字符串“div”，“>”匹配“>”。

逆序环视基础

转载注明出处：https://www.heiqu.com/wfwzdd.html

正则基础之 环视 Lookaround

相关推荐

正则基础之环视 Lookaround