正则表达式在网页处理中的应用四则(2)

日期：2020-06-25 栏目：程序人生浏览：次

“?”限制符非常重要，它防止了表达式返回其他表格的代码。例如对于前面给出的HTML代码片断，如果删除这个“?”则返回内容将是：

＜table＞
＜tr＞
＜td＞
＜p＞伊拉克战争！＜/td＞
＜/tr＞
＜/table＞
＜table＞
＜tr＞
＜td＞
＜p＞其他内容...＜/td＞
＜/tr＞
＜/table＞

返回的内容不仅包含了Headline表的＜table＞标记，而且还包含了Someotherstory表格，由此可以看出，这里的“?”是必不可少的。

本例假设了一些相当理想化的前提。实际应用中情况往往要复杂得多，特别是你对正在使用的源HTML代码的编写没有任何影响力时，编写ASP代码尤为困难。最有效的方法是，多花些时间分析待提取内容附近的HTML，经常地测试，确保提取出来的内容正是自己所需要的。

另外，应当重视并处理正则表达式不能匹配源HTML页面任何内容的情形。内容的更新可能非常快速，不要只因为别人改变了内容的格式而让自己的页面出现低级可笑的错误。

三、解析文本数据文件
数据文件的格式和种类很多，XML文档、结构化文本甚至非结构化文本都经常成为ASP应用的数据源。下面我们要看的一个例子是使用限定符的结构化文本文件。限定符（比如引号）表示字符串各个部分不可分割，即使字符串内部包含把记录分隔成字段的分隔符也一样。下面是一个简单的结构化文本文件：

姓,名, 电话, 说明
孙,悟空, 312 555 5656, ASP很好
猪,八戒, 847 555 5656, 我是电影制片人
这个文件非常简单，它的第一行是标题，下面两行是用逗号作为分隔符的记录。要解析这个文件也很简单，只需先把文件分割成行（根据换行符号），然后把各个记录按照字段分割。但是，如果我们在某个字段内容中加入了逗号：姓,名, 电话, 说明
孙,悟空, 312 555 5656, 我喜欢ASP,还有VB和SQL
猪,八戒, 847 555 5656, 我是电影制片人
解析第一个记录时就会出现问题，因为在只认可逗号分隔符的解析器看来它的最后一个字段包含了两个字段的内容。为了避免出现这类问题，包含分隔符的字段必须用限定符包围。单引号就是一种常用的限定符。把上面的文本文件加上单引号限定符之后，它的内容如下所示：姓,名, 电话, 说明
孙,悟空, 312 555 5656, '我喜欢ASP,还有VB和SQL'
猪,八戒, 847 555 5656, '我是电影制片人'

现在我们能够肯定哪一个逗号是分隔符、哪一个逗号是字段内容了，即只需把引号内部出现的逗号视为字段的内容。接下来我们要做的就是实现一个正则表达式解析器，由这个解析器确定何时根据逗号分割字段、何时把逗号视为字段内容。

这里的问题与大多数正则表达式所面临的略有不同。通常我们查看的是文本的一小部分，看看它是否能够和正则表达式匹配。但在这里，只有考虑了整行文本之后我们才能可靠地判断出哪些内容位于引号之内。

下面是一个说明该问题的例子。从某个文本文件随意抽取半行内容，得到：1, 沙滩, 黑色, 21, ', 狗, 猫, 鸭子, ', 。在这个例子中，因为“1”的左边还有其他数据，要解析清楚它的内容是极其困难的。我们不知道这个数据片断的前面有多少单引号，从而也就无法判断哪些字符位于引号之内（在引号之内的文本解析时不能分割）。如果这个数据片断之前有偶数个（或者没有）单引号，那么“', 狗, 猫, 鸭子, '”是用引号界定的字符串且不可分割。如果前面的引号数量是奇数，那么“1, 沙滩, 黑色, 21, '”是某个字符串的结束部分且不可分割。

因此，正则表达式必须分析整行文本，全面考虑出现了多少引号才能确定字符是处在引号对的内部还是外部，即：,(?=([^']*'[^']*')*(?![^']*'))。这个正则表达式首先找到一个引号，然后继续查找并保证逗号后面的单引号数量或者是偶数、或者是0。该正则表达式以下面这个判断为基础：如果逗号后面的单引号数量是偶数，那么这个逗号位于字符串之外。下表给出了更详细的说明：

, 寻找一个逗号
(?= 继续向前查找以匹配下面这个模式：
( 开始一个新的模式
[^']*' [非引号字符]0个或者多个，然后是一个引号
[^']*'[^']*) [非引号字符]0个或者多个，然后是一个引号。结合前面的内容之后它匹配引号对
)* 结束模式并匹配整个模式（引号对）0次或者多次
(?! 向前查找，排除此模式
[^']*' [非引号字符]0个或者多个，然后是一个引号
) 结束模式
下面是一个VBScript函数，它接受一个字符串参数，根据字符串中的逗号分隔符、单引号限定符分割字符串，返回结果数组： Function SplitAdv(strInput)
Dim objRE
Set objRE = new RegExp
' 设置RegExp对象
objRE.IgnoreCase = true
objRE.Global = true
objRE.Pattern = ",(?=([^']*'[^']*')*(?![^']*'))"
' Replace方法用chr(8)替换我们要用到的逗号，chr(8)即\b
' 字符，\b在字符串中出现的可能极为微小。
' 然后我们根据\b把字符串分割保存到数组
SplitAdv = Split(objRE.Replace(strInput, "\b"), "\b")
End Function

转载注明出处：https://www.heiqu.com/wfwjfp.html

正则表达式在网页处理中的应用四则(2)

相关推荐