Linux高级文本处理之gawk的使用

日期：2020-05-30 栏目：程序人生浏览：次

1.取出linux中eth0的IP地址

[root@localhost ~]# ifconfig eth0 |awk -F '[ :]+' 'NR==2 {print $4}' 192.168.1.8

说明： "+"为正则表达式模式匹配至少重复一次。

2.统计文件中所有行单词出现的次数

[root@localhost ~]# awk ' >{for(i=1;i<=NF;i++) >{count[$i]++}} >END{for(j in count) >{print j,count[j]}}' /etc/init.d/functions

3.统计文件中每行的单词出现的次数

[root@localhost ~]# awk ' >{for(i=1;i<=NF;i++) >{count[$i]++}; >for(j in count) >print j,count[j]; >delete count}' /etc/init.d/functions

4.统计当前系统上所有tcp连接的各种状态数

[root@localhost ~]# ss -tan | awk '!/^State/{state[$1]++}END{for(i in state)print i,state[i]}' ESTAB 1 LISTEN 4

5.统计制定的web访问日志中各ip的访问资源次数

[root@localhost ~]# awk '{ip[$1]++}END{for(i in ip) print i,ip[i]}' /var/log/httpd/access_log 192.168.1.101 3 192.168.1.6 297

6.Nginx日志分析

1）统计日志中访问最多的10个IP

思路：对第一列进行去重，并输出出现的次数

方法1：

$ awk '{a[$1]++}END{for(i in a)print a[i],i|"sort -k1 -nr|head -n10"}' access.log

方法2：

$ awk '{print $1}' access.log |sort |uniq -c |sort -k1 -nr |head -n10

说明：a[$1]++ 创建数组a，以第一列作为下标，使用运算符++作为数组元素，元素初始值为0。处理一个IP时，下标是IP，元素加1，处理第二个IP时，下标是IP，元素加1，如果这个IP已经存在，则元素再加1，也就是这个IP出现了两次，元素结果是2，以此类推。因此可以实现去重，统计出现次数。

2）统计日志中访问大于100次的IP

方法1：

$ awk '{a[$1]++}END{for(i in a){if(a[i]>100)print i,a[i]}}' access.log

方法2：

$ awk '{a[$1]++;if(a[$1]>100){b[$1]++}}END{for(i in b){print i,a[i]}}' access.log

说明：方法1是将结果保存a数组后，输出时判断符合要求的IP。方法2是将结果保存a数组时，并判断符合要求的IP放到b数组，最后打印b数组的IP。

3）统计2016年4月9日一天内访问最多的10个IP

思路：先过滤出这个时间段的日志，然后去重，统计出现次数

方法1：

$ awk '$4>="[9/Apr/2016:00:00:01" && $4<="[9/Apr/2016:23:59:59" {a[$1]++}\ END{for(i in a)print a[i],i|"sort -k1 -nr|head -n10"}' access.log

方法2：

$ sed -n '/\[9\/Apr\/2016:00:00:01/,/\[9\/Apr\/2016:23:59:59/p'\ access.log |sort |uniq -c |sort -k1 -nr |head -n10 #前提开始时间与结束时间日志中必须存在

4）统计当前时间前一分钟的访问数

思路：先获取当前时间前一分钟对应日志格式的时间，再匹配统计

$ date=$(date -d '-1 minute' +%d/%b/%Y:%H:%M);awk -vdate=$date '$0~date{c++}END{print c}' access.log $ date=$(date -d '-1 minute' +%d/%b/%Y:%H:%M);awk -vdate=$date\ '$4>="["date":00" && $4<="["date":59"{c++}END{print c}' access.log $ grep -c $(date -d '-1 minute' +%d/%b/%Y:%H:%M) access.log

说明：date +%d/%b/%Y:%H:%M --> 09/Apr/2016:01:55

5）统计访问最多的前10个页面（$request）

$ awk '{a[$7]++}END{for(i in a)print a[i],i|"sort -k1 -nr|head -n10"}' access.log

6）统计每个URL访问内容的总大小（$bodybytessent）

$ awk '{a[$7]++;size[$7]+=$10}END{for(i in a)print a[i],size[i],i}' access.log

7）统计每个IP访问状态码数量（$status）

$ awk '{a[$1" "$9]++}END{for(i in a)print i,a[i]}' access.log

8）统计访问状态码为404的IP及出现次数

$ awk '{if($9~/404/)a[$1" "$9]++}END{for(i in a)print i,a[i]}' access.log

7.只处理用户ID为奇数的行，并打印用户名和ID号

# awk -F: '{if($3%2 == 0) next;print $1,$3}' /etc/passwd

8.显示系统的普通用户，并打印用户及ID

# awk -F: '{if($3>=500)print $1,$3}' /etc/passwd

9.显示系统用户是“/bin/bash"的用户，并打印用户名

# awk -F: '{if($NF== "/bin/bash")print $1}' /etc/passwd

10.统计普通用户的个数

# awk -F: -v sum=0 '{if($3>=500) sum++}END{print sum}' /etc/passwd

11.统计文本的总行数

# awk 'END{print NR}' /etc/passwd

12.利用awk显示文件名

# awk 'END{print FILENAME}' /etc/fstab

13.格式化输出统计数据

# awk -F: '{printf "username= %s UID:%d\n",$1,$3}' /etc/passwd

转载注明出处：https://www.heiqu.com/14412.html

Linux高级文本处理之gawk的使用

相关推荐