Linux命令行+SHELL编程学习(3)

日期：2021-03-23 栏目：程序人生浏览：次

今天的内容有两部分，正则表达式和简单的文本处理

正则表达式

和有限状态自动机(FSM)等价的语言称为正规语言，正规语言与正则表达式(RE)等价。许多语言都支持正则表达式，比如Python,java。shell也支持。正则表达式最让人头疼的就是它的语法了，而且还有各种不同版本的大同小异的正则表达式，比如shell里面支持的正则表达式就有BRE和ERE，即基本和扩展两种。具体语法好多，网上随便一搜都是，所以我就不写了，用的时候记得区分BRE和ERE就好了。

文本处理

介绍一下文本查询、排序、去重、剪切、合并、比较等基本操作

grep查询文本

grep默认使用BRE，grep -E使用ERE。

grep pattern file1 file2 file3.....

文本排序和去重

sort和uniq的详细用法就不说了，好多好多用法，可以针对行中的某个字段进行处理。比如

/test.txt

apple:34

banana:22

cdefgh:19

那么

sort test.txt

会按照每一行的所有内容排序（排序方式有选项可以设置）。我们也可以让它按照第二个字段进行排序

sort -t : -k2 -n test.txt

-t指明了字段分隔符为冒号（默认为空格）。-k2指根据第二个字段排序（字段从1开始）。-n表示按照整数来排序（而不是字典序）

uniq用法类似，需要注意的是，按照字段去重的话，只要这个字段相同，就会认为是相同的。

apple:123:hehehehe

babab:123:vjeoafghesdf

如果按照字段2进行去重，那么这两行会认为是重复的。

文本统计

我在写完一个程序之后，常常想知道自己写了多少行，此时，wc命令就很好用（不过这个名字好怪，应该是word count而不是water closet吧）。

wc file

会给出file有几行、几个单词、几个字符

wc也可以处理多个文件，并把所有的数据汇总。比如一次大作业中我们的代码放在src文件夹中，那么可以

wc src/*.java

就会有统计结果输出了。

读取大文件

有时候我们需要处理很大的数据，比如pagerank的输入数据就以GB来计算，如果整个文件打开就很蛋疼了，而且可能会死机什么的。这时候，我们有head命令和tail命令。顾名思义，就是读取头部和尾部的若干行。

head -n6 pagerank.dat

就会从文件中读取头6行。

剪切、连接、替换

cut、join、tr分别完成这几个功能，但是我们下一篇会讲专门的文本处理工具sed和awk，它们的功能更强大，所以这三个命令就忽略吧。

转载注明出处：http://www.heiqu.com/e3469a5ce3af2836a46701aa80d77e31.html

Linux命令行+SHELL编程学习(3)

相关推荐