Linux命令行+SHELL编程学习(3)

今天的内容有两部分,正则表达式和简单的文本处理

正则表达式

和有限状态自动机(FSM)等价的语言称为正规语言,正规语言与正则表达式(RE)等价。许多语言都支持正则表达式,比如Python,java。shell也支持。正则表达式最让人头疼的就是它的语法了,而且还有各种不同版本的大同小异的正则表达式,比如shell里面支持的正则表达式就有BRE和ERE,即基本和扩展两种。具体语法好多,网上随便一搜都是,所以我就不写了,用的时候记得区分BRE和ERE就好了。

文本处理

介绍一下文本查询、排序、去重、剪切、合并、比较等基本操作

grep查询文本

grep默认使用BRE,grep -E使用ERE。

grep pattern file1 file2 file3.....

文本排序和去重

sort和uniq的详细用法就不说了,好多好多用法,可以针对行中的某个字段进行处理。比如

/test.txt

apple:34

banana:22

cdefgh:19

那么

sort test.txt

会按照每一行的所有内容排序(排序方式有选项可以设置)。我们也可以让它按照第二个字段进行排序

sort -t : -k2 -n test.txt

-t指明了字段分隔符为冒号(默认为空格)。-k2指根据第二个字段排序(字段从1开始)。-n表示按照整数来排序(而不是字典序)

uniq用法类似,需要注意的是,按照字段去重的话,只要这个字段相同,就会认为是相同的。

apple:123:hehehehe

babab:123:vjeoafghesdf

如果按照字段2进行去重,那么这两行会认为是重复的。

文本统计

我在写完一个程序之后,常常想知道自己写了多少行,此时,wc命令就很好用(不过这个名字好怪,应该是word count而不是water closet吧)。

wc file

会给出file有几行、几个单词、几个字符

wc也可以处理多个文件,并把所有的数据汇总。比如一次大作业中我们的代码放在src文件夹中,那么可以

wc src/*.java

就会有统计结果输出了。

读取大文件

有时候我们需要处理很大的数据,比如pagerank的输入数据就以GB来计算,如果整个文件打开就很蛋疼了,而且可能会死机什么的。这时候,我们有head命令和tail命令。顾名思义,就是读取头部和尾部的若干行。

head -n6 pagerank.dat

就会从文件中读取头6行。

剪切、连接、替换

cut、join、tr分别完成这几个功能,但是我们下一篇会讲专门的文本处理工具sed和awk,它们的功能更强大,所以这三个命令就忽略吧。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://www.heiqu.com/e3469a5ce3af2836a46701aa80d77e31.html