要对数据进行分析,大家会从哪里入手?对于大多数熟悉了图形工作环境的朋友来说,电子表格工具无疑是第一选项。但命令行工具同样能够更快更高效地解决问题——且只须稍微学习即可上手。
大部分此类工具冻严格局限于Linux,而多数可同样运行在Unix甚至是Windows环境之下。在今天的文章中,我们将尝试几款简单的开源数据分析工具,并共同了解其如何运作。
一、head与tail
首先,让我们先从文件处理开始。文件中有什么内容?其格式如何?大家可以使用cat命令在终端中显示文件,但其显然不适合处理内容较长的文件。
输入head与tail,二者能够完整显示文件中的指定行数内容。如果大家未指定行数,则默认显示其中10行。
$ tail -n 3 jan2017articles.csv
02 Jan 2017,Article,Scott Nesbitt,3 tips for effectively using wikis for documentation,1,/article/17/1/tips-using-wiki-documentation,"Documentation, Wiki",710
02 Jan 2017,Article,Jen Wike Huger,The Opensource.com preview for January,0,/article/17/1/editorial-preview-january,,358
02 Jan 2017,Poll,Jason Baker,What is your open source New Year's resolution?,1,/poll/17/1/what-your-open-source-new-years-resolution,,186
在最后三行中,我能够找到日期、作者姓名、标题以及其他一些信息。不过由于缺少列头,我不清楚各列的具体含义。下面查看各列的具体标题:
$ head -n 1 jan2017articles.csv
Post date,Content type,Author,Title,Comment count,Path,Tags,Word count
现在一切都非常明确,我们可以看到发布日期、内容类型、作者、标题、提交次数、相关URL、各文章标签以及字数。
二、wc
但如果需要分析数百甚至上千篇文章,又该如何处理?这里就要使用wc命令了——其为“字数”一词的缩写。wc能够对文件的字节、字符、单词或者行数进行计数。在本示例中,我们希望了解文章中的行数。
$ wc -l jan2017articles.csv 93 jan2017articles.csv
本文件共有93行,考虑到第一行中包含文件标题,因此可以推测此文件是一份包含92篇文章的列表。
三、grep
下面提出新的问题:其中有多少篇文章与安全话题有关?为了实现目标,我们假定需要的文章会在标题、标签或者其他位置提到安全这一字眼。这时,grep工具可用于通过特定字符搜索文件或者实现其他搜索模式。这是一款极为强大的工具,因为我们甚至能够利用正则表达式建立极为精确的匹配模式。不过这里,我们只需要寻找一条简单的字符串。
$ grep -i "security" jan2017articles.csv
30 Jan 2017,Article,Tiberius Hefflin,4 ways to improve your security online right now,3,/article/17/1/4-ways-improve-your-online-security,Security and encryption,1242
28 Jan 2017,Article,Subhashish Panigrahi,How communities in India support privacy and software freedom,0,/article/17/1/how-communities-india-support-privacy-software-freedom,Security and encryption,453
27 Jan 2017,Article,Alan Smithee,Data Privacy Day 2017: Solutions for everyday privacy,5,/article/17/1/every-day-privacy,"Big data, Security and encryption",1424
04 Jan 2017,Article,Daniel J Walsh,50 ways to avoid getting hacked in 2017,14,/article/17/1/yearbook-50-ways-avoid-getting-hacked,"Yearbook, 2016 Open Source Yearbook, Security and encryption, Containers, Docker, Linux",2143