Linux awk命令使用详述(3)

1、第一次清洗:去除URL中以/static/开头的URL

awk '($7 !~ /^\/static\//){print $0}' access_2013_05_30.log > clean_2013_05_30.log

去除前:

去除后:

2、第二次清洗:去除图片、css和js

awk '($7 !~ /\.jpg|\.png|\.jpeg|\.gif|\.css|\.js/) {print $0}' clean_2013_05_30.log > clean2_201 3_05_30.log

Linux awk命令使用详述

PV

pv是指网页訪问次数

方法:统计全部数据的总行数

数据清洗:对原始数据中的干扰数据进行过滤

awk 'BEGIN{pv=0}{pv++}END{print "pv:"pv}' clean2_2013_05_30.log > pv_2013_05_30

UV

uv指的是訪问人数。也就是独立IP数

对ip反复的数据进行去重,然后再统计全部行数

awk '{print $1}' clean2_2013_05_30.log |sort -n |uniq -u |wc -l > uv_2013_05_30

訪问最多的IP(前10名)

对ip反复的数据进行去重的时候还要汇总,取前10名

awk '{print $1}' clean2_2013_05_30.log | sort -n | uniq -c |sort -nr -k 1|head -10 > top10_2013_05_30

Linux awk命令使用详述

訪问前十的URL(能够用来分析站点哪个模块最受欢迎)

awk '{print $7}' clean2_2013_05_30.log | sort | uniq -c |sort -nr -k 1|head -10 > top10URL_2013_ 05_30

Linux awk命令使用详述

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/12995.html