九款命令行工具助力Linux环境下的数据分析(3)

日期：2020-05-30 栏目：程序人生浏览：次

下面立足之前的文章列表创建一个不含标题的新文件，用于同其他文件合并(例如我们每月都会定期生成某个文件，现在需要将各个月份的内容进行合并)。

$ sed '1 d' jan2017articles.csv > jan17no_headers.csv

其中的“1 d”选项要求sed删除第一行。

七、cut

了解了如何删除行，那么我们该如何删除列?或者说如何只选定某一列?下面我们尝试为之前生成的列表创建一份新的作者清单。

$ cut -d',' -f3 jan17no_headers.csv > authors.txt

在这里，通过cut与-d相配合代表着我们需要第三列(-f3)，并将结果发送至名为authors.txt的新文件。

八、uniq

作者清单已经完成，但我们要如何知悉其中包含多少位不同的作者?每位作者又各自编写了多少篇文章?这里使用uniq。下面我们对文件进行sort排序，找到唯一值，而后计算每位作者的文章数量，并用结果替换原本内容。

sort authors.txt | uniq -c > authors.txt

现在已经可以看到每位作者的对应文章数，下面检查最后三行以确保结果正确。

$ tail -n3 authors-sorted.txt

1 Tracy Miranda

1 Veer Muchandi

3 VM (Vicky) Brasseur

九、awk

最后让我们了解最后一款工具，awk。awk是一款出色的替换性工具，当然其功能远不止如此。下面我们重新回归1月12日文章列表TSV文件，利用awk创建新列表以标明各篇文章的作者以及各作者编写的具体字数。

$ awk -F "\t" '{print $3 " " $NF}' jan20only.tsv

Kushal Das 690

D Ruth Bavousett 218

Jason Baker 214

Tracy Miranda 1007

其中的-F "\t"用于告知awk目前处理的是由tab分隔的数据。在大括号内，我们为awk提供执行代码。$3代表要求其将输出第三行，而$NF则代表输出最后一行(即‘字段数’的缩写)，并在两项结果间添加两个空格以进行明确划分。

虽然这里列举的例子规模较小，看似不必使用上述工具解决，但如果将范围扩大到包含93000行的文件，那么它显然很难利用电子表格程序进行处理。

利用这些简单的工具与小型脚本，大家可以避免使用数据库工具并轻松完成大量数据统计工作。无论您是专业人士还是业余爱好者，它的作用都不容忽视。