在数据分析中,整理数据的本质可以归纳为:对数据进行分割(Split),然后应用(Apply)某些处理函数,最后将结果重新组合(Combine)成所需的格式返回,简单描述为:Split - Apply - Combine。这个过程可以通过Basic包的apply家族函数来实现,apply家族函数包括了apply、sapply、lapply、tapply、aggregate等,可以应用于数据分析的各个阶段。plyr包是apply家族函数的升级,使用plyr包可以实现:在一个函数内同时完成“Split - Apply - Combine”,并且,plyr包实现R类型(vector, list, data.frame)之间的分组变换,基本上可以取代basic包中的apply家族函数。
plyr包对核心函数的命名采用统一的格式:**ply,所有的函数名都由5个字符组成,且最后三个字符是ply,函数名的第一个字符代表输入数据的类型,第二个字符代表输出数据的类型,R类型的简写是:
d:data.frame
l:list
a:array,vector,matrix
r:代表replicate
_:舍弃输出结果
这种统一的命名格式,使得plyr包的函数更容易记忆和使用,但是,plyr包不是预装于R语言中,使用之前,需要加载和引用plyr包:
install.packages("plyr") library(plyr)