九款命令行工具助力Linux环境下的数据分析(2)

日期：2020-05-30 栏目：程序人生浏览：次

我们使用的格式为grep加-i标记(告知grep不区分大小写)，再加我们希望搜索的模式，最后是我们所搜索的目标文件的位置。最后我们找到了4篇安全相关文章。如果搜索的范围更加具体，我们可以使用pipe——它能够将grep同wc命令加以结合，用以了解其中有多少行提到了安全内容。

$ grep -i "security" jan2017articles.csv | wc -l 4

这样，wc会提取grep命令的输出结果并将其作为输入内容。很明显，这种结合再加上一点shell脚本，终端将立即变成一款强大的数据分析工具。

四、tr

在多数分析场景下，我们都会面对CSV文件——但我们该如何将其转换为其他格式以实现不同应用方式?这里，我们将其转化为HTML形式以通过表格进行数据使用。tr命令可帮助大家实现这一目标，它可将一类字符转化为另一类。同样的，大家也可以配合pipe命令实现输出/输入对接。

下面，我们试试另一个多部分示例，即创建一个TSV(即制表符分隔值)文件，其中只包含发表于1月20日的文章。

$ grep "20 Jan 2017" jan2017articles.csv | tr ',' '\t' > jan20only.tsv

首先，我们利用grep进行日期查询。我们将此结果pipe至tr命令，并利用后者将全部逗号替换为tab(表示为‘\t’)。但结果去哪了?这里我们使用〉字符将结果输出为新文件而非屏幕结果。如此一来，我们可以dqywjan20only.tsv文件中一定包含预期的数据。

$ cat jan20only.tsv 20 Jan 2017 Article Kushal Das 5 ways to expand your project's contributor base 2 /article/17/1/expand-project-contributor-base Getting started 690 20 Jan 2017 Article D Ruth Bavousett How to write web apps in R with Shiny 2 /article/17/1/writing-new-web-apps-shiny Web development 218 20 Jan 2017 Article Jason Baker "Top 5: Shell scripting the Cinnamon Linux desktop environment and more" 0 /article/17/1/top-5-january-20 Top 5 214 20 Jan 2017 Article Tracy Miranda How is your community promoting diversity? 1 /article/17/1/take-action-diversity-tech Diversity and inclusion 1007

五、sort

如果我们先要找到包含信息最多的特定列，又该如何操作?假设我们需要了解哪篇文章包含最长的新文章列表，那么面对之前得出的1月20日文章列表，我们可以使用sort命令对列字数进行排序。在这种情况下，我们并不需要使用中间文件，而可以继续使用pipe。不过将长命令链拆分成较短的部分往往能够简化整个操作过程。

$ sort -nr -t$'\t' -k8 jan20only.tsv | head -n 1

20 Jan 2017 Article Tracy Miranda How is your community promoting diversity? 1 /article/17/1/take-action-diversity-tech Diversity and inclusion 1007

以上是一条长命令，我们尝试进行拆分。首先，我们使用sort命令对字数进行排序。-nr选项告知sort以数字排序，并将结果进行反向排序(由大到小)。此后的-t$'\t'则告知sort其中的分隔符为tab(‘\t’)。其中的$要求此shell为一条需要处理的字符串，并将\n返回为tab。而-k8部分则告知sort命令使用第八列，即本示例中进行字数统计的目标列。

最后，输出结果被pipe至head，处理后在结果中显示此文件中包含最多字数的文章标题。

六、sed

大家可能还需要在文件中选择特定某行。这里可以使用sed。如果希望将全部包含标题的多个文件加以合并，并只为整体文件显示一组标题，即需要清除额外内容；或者希望只提取特定行范围，同样可以使用sed。另外，sed还能够��好地完成批量查找与替换任务。

转载注明出处：https://www.heiqu.com/14239.html

九款命令行工具助力Linux环境下的数据分析(2)

相关推荐