Spark1.4.1中sparkR的编译使用全过程

日期：2020-06-18 栏目：程序人生浏览：次

本文针对那些和我一样，对spark还挺熟悉但对R知之甚少甚至之前没听过的同学，在spark引入了sparkR后才开始零基础地开始学习使用。如果你本身对R和sparkR已经很熟悉了，就不用看了。

本文主要包含的内容：

spark1.4.1编译

sparkR使用环境配置

sparkR的第一个例子

spark1.4.1编译

首先从spark官网下载spark1.4.0或者1.4.1的源码，并解压。要使用sparkR，必须要先用带有sparkR的参数的编译命令，把sparkR编译到spark的tar包中。命令如下：

./make-distribution.sh --tgz -Pyarn -Phive -Psparkr -DskipTests -DHadoop.version=your version

比1.4版本前的编译命令，多了个“-Psparkr”，表示要把sparkR编译进去。（这里注意大小写）

sparkR使用环境配置

sparkR的运行需要依赖R语言环境。

如果通过某一台客户端向spark提交sparkR作业以及各项操作，那么只在本客户端机器上安装R环境后，可以并只可以通过yarn-client方式操作。如果在整个spark的集群上都安装了R环境，则可以用yarn-cluster或者yarn-client方式提交。其实很好理解，driver在哪里启动，就需要哪里有R环境。yarn-client模式中，driver在客户端本地启动，所以只需要本地有R环境；要运行yarn-cluster模式，driver就需要在spark集群的某个节点启动，该节点是不确定的，所以需要整个spark集群有R环境。（本段是我的个人理解，并不一定正确，欢迎指正。）

R环境的安装配置，我是用rpm包安装的。

1. 从下载如下这些包：

libRmath-3.2.1-1.el6.x86_64.rpm

libRmath-devel-3.2.1-1.el6.x86_64.rpm

R-core-3.2.1-1.el6.x86_64.rpm

R-core-devel-3.2.1-1.el6.x86_64.rpm

R-java-3.2.1-1.el6.x86_64.rpm

R-java-devel-3.2.1-1.el6.x86_64.rpm

R-3.2.1-1.el6.x86_64.rpm

R-devel-3.2.1-1.el6.x86_64.rpm

2. 对上述8个rpm包，依次执行 yum install ..... 注意，因为有依赖关系，要按照我上面的这个顺序依次安装。例如：

yum install libRmath-3.2.1-1.el6.x86_64.rpm

sparkR的第一个例子

现在确保你的spark集群满足这两个条件：

1. 使用的spark是已经把sparkR编译进来了的版本；

2. 准备操作sparkR的这台机器上有R环境。

两种运行sparkR的方法：

1. spark-shell方式：

sparkR --master yarn-client

2. 提交作业的方法

spark-submit --master yarn-client your-r-file.R

下面的一个R文件，是我从Github上抄过来的一个例子，可惜已经找不到github上的链接了，只能遥遥感谢这个example的作者了。用上面两种运行方法，可以直接拷贝到一个R文件中，并spark-submit提交；也可以启动一个sparkR的shell客户端，然后逐行输入。

# Download Spark 1.4 from
#
# Download the nyc flights dataset as a CSV from https://s3-us-west-2.amazonaws.com/sparkr-data/nycflights13.csv

library(SparkR)

sc <- sparkR.init(appName="SparkR-DataFrame-example")
sqlContext <- sparkRSQL.init(sc)

# Launch SparkR using
# ./bin/sparkR --packages com.databricks:spark-csv_2.10:1.0.3

# The SparkSQL context should already be created for you as sqlContext
sqlContext
# Java ref type org.apache.spark.sql.SQLContext id 1

# Load the flights CSV file using `read.df`. Note that we use the CSV reader Spark package here.
flights <- read.df(sqlContext, "./nycflights13.csv", "com.databricks.spark.csv", header="true")

# Print the first few rows
head(flights)

# Run a query to print the top 5 most frequent destinations from JFK
jfk_flights <- filter(flights, flights$origin == "JFK")

# Group the flights by destination and aggregate by the number of flights
dest_flights <- agg(group_by(jfk_flights, jfk_flights$dest), count = n(jfk_flights$dest))

# Now sort by the `count` column and print the first few rows
head(arrange(dest_flights, desc(dest_flights$count)))

## dest count
##1 LAX 11262
##2 SFO 8204
##3 BOS 5898

# Combine the whole query into two lines using magrittr
library(magrittr)
dest_flights <- filter(flights, flights$origin == "JFK") %>% group_by(flights$dest) %>% summarize(count = n(flights$dest))
arrange(dest_flights, desc(dest_flights$count)) %>% head

本文永久更新链接地址：

转载注明出处：https://www.heiqu.com/0ff3488c92b0d1132fe98a3ee0422753.html

Spark1.4.1中sparkR的编译使用全过程

相关推荐