正则应用之逆序环视探索 .(2)

日期：2020-06-23 栏目：程序人生浏览：次

import java.util.regex.*;
String test = "<div>a test</div>";
String reg = "(?<=<div>)[^<]+(?=</div>)";
Matcher m = Pattern.compile(reg).matcher(test);
while(m.find())
{
System.out.println(m.group());
}
/*--------输出--------
a test
*/

但是如果源字符串变一下，加个属性变成“<div id=”test1”>a test</div>”，那么除非标签中属性内容是固定的，否则就无法在Java中用逆序环视来实现了。

为什么在很多流行语言中，要么不支持逆序环视，要么只支持固定长度的子表式呢？先来分析一下逆序环视的匹配原理吧。

2.1.2 Java中逆序环视匹配原理分析

不支持逆序环视的自不必说，只支持固定长度子表达式的逆序环视如何呢。
源字符串：<div>a test</div>
正则表达式：(?<=<div>)[^<]+(?=</div>)

正则应用之逆序环视探索 .

需要明确的一点，无论是什么样的正则表达式，都是要从字符串的位置0处开始尝试匹配的。
首先由“(?<=<div>)”取得控制权，由位置0开始尝匹配，由于“<div>”的长度固定为5，所以会从当前位置向左查找5个字符，但是由于此时位于位置0处，前面没有任何字符，所以尝试匹配失败。
正则引擎传动装置向右传动，由位置1处开始尝试匹配，同样匹配失败，直到位置5处，向左查找5个字符，满足条件，此时把控制权交给“(?<=<div>)”中的子表达式“<div>”。“<div>”取得控制权后，由位置0处开始向右尝试匹配，由于正则都是逐字符进行匹配的，所以这时会把控制权交给“<div>”中的“<”，由“<”尝试字符串中的“<”，匹配成功，接下来由“d”尝试字符串中的“d”，匹配成功，同样的过程，由“<div>”匹配位置0到位置5之间的“<div>”成功，此时“(?<=<div>)”匹配成功，匹配成功的位置是位置5。
后续的匹配过程请参考　正则基础之——环视　和　正则基础之——NFA引擎匹配原理。
那么对于量词“?”又是怎么样一种情况呢，看一下下面的例子。
源字符串：cba
正则表达式：(?<=(c?b))a

复制代码代码如下:

String test = "cba";
String reg = "(?<=(c?b))a";
Matcher m = Pattern.compile(reg).matcher(test);
while(m.find())
{
System.out.println(m.group());
System.out.println(m.group(1));
}
/*--------输出--------
a

*/

可以看到，“c?”并没有参与匹配，在这里，“?”并不具备贪婪模式的作用，“?”只提供了一个分支的作用，共记录了两个分支，一个分支需要从当前位置向前查找一个字符，另一个分支需要从当前位置向前查找两个字符。正则引擎从当前位置，尝试这两种情况，优先尝试的是需要向前查找较少字符的分支，匹配成功，则不再尝试另一个分支，只有这一分支匹配失败时，才会去尝试另一个分支。

复制代码代码如下:

String test = "dcba";
String reg = "(?<=(dc?b))a";
Matcher m = Pattern.compile(reg).matcher(test);
while(m.find())
{
System.out.println(m.group());
System.out.println(m.group(1));
}
/*--------输出--------
a
dcb
*/

虽然有两个分支，但向前查找的字符数可预知的，所以只支持“?”时并不复杂，但如果再支持其它不定长度量词，情况又如何呢？
2.1.3 .NET中逆序环视匹配原理
.NET的逆序环视中，是支持不定长度量词的，在这个时候，匹配过程就变得复杂了。先看一下定长的是如何匹配的。

复制代码代码如下:

string test = "<div>a test</div>";
Regex reg = new Regex(@"(?<=<div>)[^<]+(?=</div>)");
Match m = reg.Match(test);
if (m.Success)
{
richTextBox2.Text += m.Value + "\n";
}
/*--------输出--------
a test
*/

从结果可以看到，.NET中的逆序环视在子表达式长度固定时，匹配行为与Java中应该是一样的。那么不定长量词又如何呢？

复制代码代码如下:

string test = "cba";
Regex reg = new Regex(@"(?<=(c?b))a");
Match m = reg.Match(test);
if (m.Success)
{
richTextBox2.Text += m.Value + "\n";
richTextBox2.Text += m.Groups[1].Value + "\n";
}
/*--------输出--------
a
cb
*/

可以看到，这里的“?”具备了贪婪模式的特性。那么这个时候是否会有这样的疑问，它的匹配过程仍然是从当前位置向左尝试，还是从字符串开始位置向右尝试匹配呢？

复制代码代码如下:

转载注明出处：https://www.heiqu.com/wfyzjx.html

正则应用之 逆序环视探索 .(2)

相关推荐

正则应用之逆序环视探索 .(2)