正则表达式及PHP中的正则函数

正则表达式 (regular expression), 常简写为 regex, 用于在字符串中进行比较复杂的匹配

perl 和 ereg

现有两种类型的正则表达式 perl 和 POSIX, perl 类型 更规范,执行效率越高, POSIX 类型常用于 Unix

php 提供了两套正则表达式函数库

preg_ 系列以 perl 为基础

ereg_ 系列以 POSIX 为基础

preg_ 系列更常用,ereg_ 将要被淘汰

原子 基本字符

ASCII码中,除了下面要介绍的字符之外的,所有字符。基本字符与下面要介绍的各种特殊字符与模式结合使用,就形成了所谓的正则表达式。

Linux正则表达式特性及BRE与ERE的区别

grep使用简明及正则表达式

正则表达式的用法

正则表达式之零宽断言 

Linux中正则表达式与文件格式化处理命令(awk/grep/sed)

单元符号 ()

圆括号中的基本字符在匹配时被看做一个整体。

正则匹配
(abc)   abc  

该整体会保存在内存中,可作为整体获取,例如 "/go(abc)g\\1le/" 可以匹配 goabcgabcle, \\1 对应了 abc。

这种方法可用于匹配不同格式的日期 "/2014(.*)06\1(13)/" 可匹配 2014/06/13 或 2014-06-13 , 但不可匹配 2014-06/13 。这里 \\1(13) 如不加括号会被认为内存中的第 113 号。

也可以用模式修饰符 x 实现 "/2014(.*)06\1 13/x",

原子表 []

与单元符号相反,原子表用于匹配其中的中任意一个原子。

正则匹配
[abc]   a 或 b 或 c  

原子表中 x-y 匹配 x 到 y 范围内的字符, 常见用法如下

正则匹配
[0-9]   所有数字  
[a-z]   所有小写字母  
[A-z]   所有大写字母  
[a-zA-z]   所有字母  

需要注意的是 ^ 符号在原子表中表示排除,而在元字符中表示开头

正则匹配
[^abc]   除了abc外的字符  
[^0-9]   所有 数字  
转义字符

转义字符就是一些常用原子表表达式的简写

转义字符匹配原子表表示
\d   所有数字   [0-9]  
\D   除所有数字外   [^0-9]  
\w   所有字母加数字加下划线   [a-zA-Z0-9_]  
\W   除字母数字下划线之外的字符   [^a-zA-Z0-9_]  
\s   匹配空白(Tab,空格,换页,换行)   [\f\v\t\r\n]  
\S   匹配非空白   [^\f\v\t\r\n]  
元字符 metacharacter 字符匹配
.   匹配除换行符以外的任意字符  
*   匹配前一个内容的0次或1次或多次  
+   匹配前一个内容的1次或多次  
?   匹配0次或1次  
|   逻辑符 “或”  
^   匹配字符串首部内容,加在原子前, 例如 ^abc  
$   匹配字符串尾部部内容, 加在原子后, 例如 abc$  
\b   通过边界匹配单词,边界为空格或特殊符号, \bis\b 用于匹配 is 单词  
\B   通过边界匹配单词以外内容  
{m}   匹配前一个内容的m次  
{m}   匹配前一个内容的大于m次  
{m,n}   匹配前一个内容的m到n次  

更多详情见请继续阅读下一页的精彩内容

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://www.heiqu.com/53b266b0e37d1b90ad94766ea448087e.html