使用awk格式化输出文本

日期：2020-05-30 栏目：程序人生浏览：次

awk借鉴了c语法，因此awk在许多地方还保留有C语言的痕迹，比如printf语句；for，if的语法结构等

介绍

最简单地说，AWK 是一种用于处理文本的编程语言工具，处理模式是只要在输入数据中有模式匹配，就执行一系列指令。awk命令格式为：

awk {pattern + action} {filenames}

awk可以读取后接的文件，也可以读取来自前一命令的标准输入，它分别扫描输入数据的每一行，查找命令行中pattern是否匹配。如果匹配，则进行后续动作action。如果pattern不匹配或action部分处理完毕，则继续处理下一行，直到结束

相比于sed常常作用于一整行的处理，awk则比较倾向于将一行分成数个字段来处理。awk将输入数据视为一个文本数据库，像数据库一样，它也有记录和字段的概念。默认情况下，记录的分隔符是回车，字段的分隔符是空白符(空格,\t)，所以输入数据的每一行表示一个记录，而每一行中的内容被空白分隔成多个字段。利用字段和记录，awk可以非常灵活地处理文件

语法 1 语法

一个典型的awk语法如下：

awk '{ BEGIN{stat1} BEGIN{stat2}
pattern1{action1} pattern2{action2} ... patternn{actionn} {默认动作,无条件,始终执行} END{stat1} END{stat2} }'

其中BEGIN为处理文本前的操作,一般用于改变FS,OFS,RS,ORS等，BEGIN部分完成之后，awk读取第一行输入，并将第一行的数据填入 $0,$ 1,$2,NR,NF等变量，然后进入正式处理阶段，待所有行处理完毕之后，进入END部分，END一般用于总结,打印报表等。正式处理是一个内建的循环,每一次循环读取一行数据，每一行的处理分为多模式,多动作,文本行符合条件pattern1就执行动作action1符合pattern2就执行动作action2…，还可以有默认的动作, 即没有pattern判断，始终执行此{}内的action。

BEGIN，END部分不是必须出现，可以没有，也可以有任意多个

pattern部分的写法有:

/reg/: 在整行范围内匹配reg，匹配到就执行后续动作

! /reg/: 整行没匹配到reg，才执行后续动作

$1 ~ /reg/：只在第一字段匹配reg

$1 !~ /reg/: 不匹配

NR>=2：从第二行开始处理

pattern，部分和随后的if，for部分，能用到的符号有：

2 内建变量

$0 当前记录（这个变量中存放着整个行的内容） $1~$n 当前记录的第n个字段，字段间由FS分隔 FS 输入字段分隔符默认是空格或\t NF 当前记录中的字段个数，就是有多少列 NR 已经读出的记录数，就是行号，从1开始，如果有多个文件话，这个值也是不断累加中。 FNR 当前记录数，与NR不同的是，这个值会是各个文件自己的行号 RS 输入的记录分隔符，默认为换行符 OFS 输出字段分隔符，默认也是空格 ORS 输出的记录分隔符，默认为换行符 FILENAME 当前输入文件的名字

3 if,for语句

#在任何时候{}内都可以跟多个并列动作(使用“;”分隔)，下面的{action1} 和 {action1；action2；...} 都表示{}体内有多个动作，两种表示没有任何区别，写第二种仅仅是为了直观的表示可以有多个动作

#for循环写法

for(i=1;i<=NF;i++){action1; action2; ..} #{}中用分号分隔多个动作 for(i=1;i<=NF;i++)if; else if;else #for后接一个if结构 for(i=1;i<=NF;i++)printf “for add” #简单的循环打印

#if 判断写法

if($1 ~ /reg/){action1}; else if($1 ~ /reg2/){action2}; else{action3} #else if部分可以没有 if($1 ~ /reg/ && $2 ~ /reg2/){action} #多个条件用”&&”,”||”表示 if($1 ~ /reg/ || NR >= 5){action

# if,for 混合写法

{ for(i=1;i<=NF;i++)if(…) printf “test”; else if(…) printf “test2”; else printf “test3”; print "not_for" }
#print “not_for”部分是并列与for循环结构的另一个action，在for循环之外，只会打印一次 { for(i=1;i<=NF;i++){if(…) printf “test”; else if(…) printf “test2”; else printf “test3”；print “in_for“}; print "not_in_for" } { for(i=1;i<=NF;i++){if {s1;s2;} else if {s3;s4;} else {s5;s6;}; print "test"} } #else if前不加分号 { for(i=1;i<=NF;i++)printf "for_add"; if(…);else if(…); else } #if并不在for循环体内

for循环的作用范围为：

其后紧跟的if; else if; else语句

其后紧跟的{}中的多个动作

其后紧跟的一个第一个普通动作

if语句的作用范围：

if后紧跟的第一个动作

if后紧跟的{}中的多个动作

4 awk技巧

1: AWK使用的RE为ERE

2: 如果在BEGIN中设置了OFS, 只有$0有改动OFS才能生效

3: printf 与 print 的区别: printf 不自动打印换行符, print 则自动打印

4: gsub的返回值并不是替换后的字符串,而是返回替换的次数

5: 字符串常量一定在用" "包围起来,否则当作变量使用, 如 $1=="ipaddress"

6: AWK 的 for 循环为 C-Style,即为 for(), 区别于shell中的for i in ...

7: AWK中可以使用多个分隔符,要封装在方括号里,用' '包围,以防 shell 对它们进行解释,如 awk -F '[ :/t]' ,使用空格,冒号,tab作为分隔符

8: next语句:从输入文件中取得下一个输入行,在AWK命令表顶部重新执行命令,一般用于跳过一些特殊的行

9: awk 匹配多个条件: awk '/kobe/ && /james/' #匹配同时有kobe和james的行

10: FS的默认值是[ /t/n]+, OFS的默认值为空格,RS,ORS的默认值都是换行

11: 定位行有两种方法: 1: NR==行号 2: 用RE /Love$/

12: exit语句:终止AWK程序,但不跳过END语句

转载注明出处：https://www.heiqu.com/15334.html

使用awk格式化输出文本

相关推荐