今天的内容有两部分,正则表达式和简单的文本处理
正则表达式和有限状态自动机(FSM)等价的语言称为正规语言,正规语言与正则表达式(RE)等价。许多语言都支持正则表达式,比如Python,java。shell也支持。正则表达式最让人头疼的就是它的语法了,而且还有各种不同版本的大同小异的正则表达式,比如shell里面支持的正则表达式就有BRE和ERE,即基本和扩展两种。具体语法好多,网上随便一搜都是,所以我就不写了,用的时候记得区分BRE和ERE就好了。
文本处理介绍一下文本查询、排序、去重、剪切、合并、比较等基本操作
grep查询文本grep默认使用BRE,grep -E使用ERE。
grep pattern file1 file2 file3.....
文本排序和去重sort和uniq的详细用法就不说了,好多好多用法,可以针对行中的某个字段进行处理。比如
/test.txt
apple:34
banana:22
cdefgh:19
那么
sort test.txt
会按照每一行的所有内容排序(排序方式有选项可以设置)。我们也可以让它按照第二个字段进行排序
sort -t : -k2 -n test.txt
-t指明了字段分隔符为冒号(默认为空格)。-k2指根据第二个字段排序(字段从1开始)。-n表示按照整数来排序(而不是字典序)
uniq用法类似,需要注意的是,按照字段去重的话,只要这个字段相同,就会认为是相同的。
apple:123:hehehehe
babab:123:vjeoafghesdf
如果按照字段2进行去重,那么这两行会认为是重复的。
文本统计我在写完一个程序之后,常常想知道自己写了多少行,此时,wc命令就很好用(不过这个名字好怪,应该是word count而不是water closet吧)。
wc file
会给出file有几行、几个单词、几个字符
wc也可以处理多个文件,并把所有的数据汇总。比如一次大作业中我们的代码放在src文件夹中,那么可以
wc src/*.java
就会有统计结果输出了。
读取大文件有时候我们需要处理很大的数据,比如pagerank的输入数据就以GB来计算,如果整个文件打开就很蛋疼了,而且可能会死机什么的。这时候,我们有head命令和tail命令。顾名思义,就是读取头部和尾部的若干行。
head -n6 pagerank.dat
就会从文件中读取头6行。
剪切、连接、替换
cut、join、tr分别完成这几个功能,但是我们下一篇会讲专门的文本处理工具sed和awk,它们的功能更强大,所以这三个命令就忽略吧。