《Linux命令行与shell脚本编程大全》第二十章正则表达式

日期：2021-06-25 栏目：程序人生浏览：次

20.1 什么是正则表达式 20.1.1 定义

正则表达式是你所定义的模式模板。linux工具可以用它来过滤文本。

正则表达式利用通配符来描述数据流中第一个或多个字符。

正则表达式模式含有文本或特殊字符，为sed编辑器和gawk程序定义了一个匹配数据时采用的模板。

20.1.2 正则表达式的类型

使用正则表达式最大的问题在于有不止一种类型的正则表达式。

正则表达式是通过正则表达式引擎实现的，正则表达式引擎是一套底层软件，负责解释正则表达式模式并使用这些模式进行文本匹配。

在linux中有两种流行的正则表达式引擎：

1）POSIX基础正则表达式（BRE）引擎

2）POSIX扩展正则表达式（ERE）引擎

大部分linux工具都至少符合POSIX BRE引擎规范，能够识别该规范定义的所有模式符号。

但是，有些工具只支持BRE引擎规范下的子集。比如sed，这是出于速度方面的考虑。

gawk程序用ERE引擎来处理它的正则表达式模式。

20.2 定义BRE模式 20.2.1 纯文本

例子：

$echo “This is test line” | sed -n ‘/test/p’

$echo “This is test line” | gawk ‘/test/{print $0}’

正则表达式并不关心模式在数据流中的位置，也不关心出现了多少次，只要匹配了就会将该字符串传会linux工具。

正则表达式模式区分大小写。

20.2.2 特殊字符

正则表达式识别的特殊字符包括：

.*[]^${}\+?|()

如果要用某个特殊字符作为文本字符，就必须转义。在前面加上反斜线\。

比如：

$echo “This cost is \$200” | sed –n ‘/\$/p’ // 注意这里应该是\$200，而不是$200

$echo “\ hahah, this is fanxiexian” | sed –n ‘/\\/p’

要使用正斜线也需要用转义字符

$ehco “6 / 3 = 2” | sed -n ‘/\//p’

20.2.3 锚字符 ^ $

默认情况下，模式出现再数据流中的任何地方，它就能匹配。

有两个特殊字符可以用来将模式锁定在数据流中的行首或行尾。

1.锁定在行首（脱字符 ^）

^ 定义从数据流中文本行的行首开始的模式。如果模式出现在行首之外的位置，正则表达式模式则无法匹配。

需要用^，就必须将它放在正则表达式中指定的模式前面。

比如：

$echo “The book store” | sed –n ‘/^book/p’ // 这样不会有输出

$echo “The book store” | sed –n ‘/^The/p’ // 这个才有

还可以输入文件：

$sed -n ‘/^this/p’ data.txt

data.txt 中以this开头的行就能找出来。

注意如果将^放到模式开头之外的其他位置，那么久跟普通字符一样了。

$echo “This is ^ test” | sed –n ‘/is ^/p’ // 匹配 is ^ 。

注意：

如果指定正则表达式模式时只用了脱字符，就不需要用反斜线来转义。

如果你在模式中先指定了脱字符，随后还有一些其他文本，那么你必须在脱字符前用转义字符。

2. 锁定在行尾

用美元符$

$echo “This is test line” | sed –n ‘/line$/p’ //这样可以匹配到

$echo “This is test lines” | sed –n ‘/line$/p’ //这样不可以匹配到

要想匹配，文本模式必须是行的最后一部分。

3. 组合锚点

比如想到匹配指定内容

$sed ‘/^this is test line$/p’ data.txt // 匹配行 this is test line

将两个锚点直接组合在一起，之间不加任何东西，这样就过滤出数据流中的空白行。

$sed -n ‘/^$/p’ data.txt // 这样可以把data.txt 中的空白行过滤出来。

20.2.4 点号字符 .

用来匹配除换行符之外的任意单个字符。它必须匹配一个字符，如果点字符的位置没有字符那么模式就不成立。

例子：

xcy@xcy-virtual-machine:~/shell/20zhang$ cat data.txt

this is a test line

the cat is sleeping

that is a very nice hat

this test is at line four

at ten o'clock we'll go home

xcy@xcy-virtual-machine:~/shell/20zhang$ sed -n '/.at/p' data.txt

the cat is sleeping

that is a very nice hat

this test is at line four

xcy@xcy-virtual-machine:~/shell/20zhang$

空格也算一个字符。注意第5行没有匹配到。at前面没有字符了。

20.2.5 字符组 []

可以限定待匹配的具体字符，在正则表达式中，这称为字符组。用[]括起来

比如：

$sed –n ‘/[ch]at/p’ data.txt // 相当于只匹配cat 或者 hat。其他的at就不匹配了。

在不确定大小写的时候，字符组会非常有用：

$echo “Yes” | sed –n ‘/[yY]es/p’

还可以用多个字符组：

$echo ‘YeS’ | sed –n ‘/[Yy][Ee][Ss]/p’

这样就相当于可以限制行的字符个数和区间了

20.2.6 排除型字符组

相当于字符组取反，可以寻找字符组中没有的字符。在前面加个脱字符就好了。

$sed –n ‘/[^ch]at/p’ data.txt

匹配出c和h以外的字符。

20.2.7 区间

0 – 9，可以直接这么写[0-9] 而不需要[0123456789]

$sed –n ‘/^[0-9][0-9][0-9][0-9]&/p’ data.txt

字母也可以

$sed –n ‘/[c-h]at/p’ data.txt // 匹配c到h这个区间的字符。

还可以指定多个不连续的区间：

$sed –n ‘/[a-ch-m]at/p’ data.txt // 指定 a-c 和 h-m区间的字母。

$echo “This is foot” | sed –n ‘/[a-ch-n]oot/p’

20.2.8 特殊的字符组

除了自定义的区间（比如[0-9] [a-f]）之外，BRE还包含了一些特殊的字符组。见下表

组

描述

[[:alpha:]]

匹配任意字母字符，不管大小写

[[:alnum:]]

匹配任意字母数字字符 0-9 a-z A-Z

[[:blank:]]

匹配空格或制表符

[[:digit:]]

匹配数字 0-9

[[:lower:]]

匹配小写字母 a-z

[[:print:]]

匹配任意可打印字符

[[:punct:]]

匹配标点符号

[[:space:]]

匹配任意空白字符：空格、制表符、NL、FF、VT和CR

[[:upper:]]

匹配大写字母A-Z

使用：

$echo “achsdsd” | sed –n ‘/[[:digit:]]/p’

$echo “2344” | sed –n ‘/[[:digit:]]/p’

$echo “achsdsd” | sed –n ‘/[[:lower:]]/p’

$echo “this is , a test” | sed –n ‘/[[:punct:]]/p’

20.2.9 星号 *

在字符后面放置星号用来表明该字符必须在匹配模式的文本中出现0次或多次。

例子：

$echo “I am hahahaaaaa” | sed -n ‘/ha*h/p’ // 表明a可以出现0次或多次。

*还能用到字符组上，它允许指定可能在文本中出现多次的字符组或区间：

$echo ‘bt’ | sed –n ‘/b[ae]*t/p’ // a出现0次或次，e出现0次或多次

20.3 扩展正则表达式（POSIX ERE）

提供了一些可以供linux应用和工具使用的额外符号。

gawk程序（会慢一点）能够识别，sed编辑器（查找比较快）不能识别。

20.3.1 问号?

类似于星号，但是有点不同。

问号表明前面的字符可以出现0次或1次，不会匹配出现多次的字符。

$echo “bt” | gawk ‘/be?t/{print $0}’

$echo “bet” | gawk ‘/be?t/{print $0}’

$echo “beet” | gawk ‘/be?t/{print $0}’ // e 出现了2次，这里就不输出了

还可以跟字符组一起使用：

$echo “bet” | gawk ‘/b[ae]?t/{print $0}’

$echo “bat” | gawk ‘/b[ae]?t/{print $0}’

$echo “baet” | gawk ‘/b[ae]?t/{print $0}’ // 这里相当于出现了2次，也不会输出

$echo “baet” | gawk ‘/b[a-f]?t/{print $0}’

20.3.2 加号+

有点像*号。但是必须出现1次以上。可以有多次

$echo “baet” | gawk ‘/b[ae]+t/{print $0}’

20.3.3 使用花括号{}

花括号允许你为可重复的正则表达式指定一个上限，这通常称为间隔。可以用两种格式来指定区间。

1）m：正则表达式准确出现m次

2）m,n：正则表达式至少出现m次，至多n次。

注意：默认情况下gawk程序不识别正则表达式间隔。必须指定gawk程序的 –re-interval命令行选项才能识别正则表达式间隔。

例子：

$echo “bt” | gawk –re-interval ‘/be{1}t/{print $0}’ // 指定出现1次e

$echo “bet” | gawk –re-interval ‘/be{1}t/{print $0}’

$echo “beeet” | gawk –re-interval ‘/be{3,6}t/{print $0}’ // e至少出现3次，至多6次

$echo “baaeeet” | gawk –re-interval ‘/b[ae]{1,3}t/{print $0}’ // a e 出现1 -3 次

20.3.4 管道符号|

管道符号允许你在检查数据流时，用逻辑or方式指定正则表达式引擎要用的两个或多个模式。

格式如下：

expr1|expr2|……

例子：

echo "the dog is sleeping" | gawk '/cat|dog/{print $0}' // 去匹配cat或dog

echo "the tat is sleeping" | gawk '/[ct]at|dog/{print $0}' // 去匹配 [ct]at或dog

20.3.5 表达式分组()

转载注明出处：https://www.heiqu.com/zygfwx.html

《Linux命令行与shell脚本编程大全》第二十章 正则表达式

相关推荐

《Linux命令行与shell脚本编程大全》第二十章正则表达式