1、设置maven的内存使用
export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"
如果不设置,会报下面错误
[INFO] Compiling 203 Scala sources and 9 Java sources to /Users/me/Development/spark/core/target/scala-2.10/classes...
[ERROR] PermGen space -> [Help 1] [INFO] Compiling 203 Scala sources and 9 Java sources to /Users/me/Development/spark/core/target/scala-2.10/classes...
[ERROR] Java heap space -> [Help 1]
但是Java 8及以上版本不需要设置
2、指定Hadoop版本
因为hdfs版本不是协议兼容的,如果你要从HDFS读取文件,你需要指定你环境中的hadoop版本,通过"hadoop.version”属性指定,否则使用1.0.4版本作为默认版本
指定方式:
对于Apache 1.x,cloudera CDH发布版本和其他没有yarn的hadoop版本需要使用
# Apache Hadoop 1.2.1
mvn -Dhadoop.version=1.2.1 -DskipTests clean package
# Cloudera CDH 4.2.0 with MapReduce v1
mvn -Dhadoop.version=2.0.0-mr1-cdh4.2.0 -DskipTests clean package
# Apache Hadoop 0.23.x
mvn -Phadoop-0.23 -Dhadoop.version=0.23.7 -DskipTests clean package
对于有yarn的版本,并且yarn版本和hadoop版本不同的话可以使用
yarn.version指定
指定格式:
3、支持hive和JDBC的编译
添加-Phive and Phive-thriftserver选项默认是编译hive 0.13.1版本
更多Spark相关教程见以下内容:
CentOS 7.0下安装并配置Spark
CentOS 6.2(64位)下安装Spark0.8.0详细记录
Spark简介及其在Ubuntu下的安装使用