Ubuntu 16.04安装Hadoop2.6+Spark1.6+开发实例

Ubuntu16.04安装Hadoop2.6+Spark1.6,并安装python开发工具Jupyter notebook,通过pyspark测试一个实例,調通整个Spark+hadoop伪分布式开发环境。 主要内容:配置root用户,配置Hadoop,Spark环境变量,Hadoop伪分布式安装并测试实例,spark安装并通过Jupter notebook进行开发实例,配置Jupter notebook兼容Python2和python3双内核共存开发。

默认已经正确安装了JDK,并设置了JAVA_HOME(安装JDK教程较多,不再赘述)

1.配置环境变量 1.1.进入root用户 1.1.1 root用户初始为禁止登陆,通过重新设置密码达到root可登陆目的。

sudo passwd //回车输入新的root账户密码两次
su //以root登录 执行设计opt的文件
在本用户(root用户和普通用户)下

ls -a 1.1.2.为了使得当前user如wxl(wangxiaolei)用户的变量在root用户中也能生效,需要修改root用户下的.bashrc文件。方法如下。 su vim ~/.bashrc #增加内容 source /etc/profile

重新启动terminal/终端

1.2.配置当前用户中hadoop和spark的环境变量(有的开发人员习惯先创建一个Hadoop新用户来做,其实这个是可有可无的)

vim /etc/profile.d/spark.sh

export SPARK_HOME=/opt/spark export PATH=$PATH:$SPARK_HOME/bin:$PATH export PYTHONPATH=$SPARK_HOME/ptython

vim /etc/profile.d/hadoopsnc.sh (hadoop Single node cluster)

export HADOOP_HOME/opt/hadoop export CLASSPATH=".:$JAVA_HOME/lib:$CLASSPATH" export PATH="$JAVA_HOME/:$HADOOP_HOME/bin:$PATH" export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native 1.3.解决localhost: Error: JAVA_HOME is not set and could not be found. 修改/opt/hadoop/etc/hadoop/hadoop-env.sh vim /opt/hadoop/etc/hadoop/hadoop-env.sh #增加 export JAVA_HOME=/opt/java

ubuntu-hadoop-JAVA_HOME

2.安装Hadoop。在单机情景下,可以单例也可以伪分布式安装。本次详细介绍了伪分布式安装。 2.0.Hadoop单机模式 bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.4.jar grep input output 'dfs[a-z.]+'

结果如图

ubuntu-hadoop-sigle

cat output/*

Tip:再次运行例子时候需要手动删除output文件,否则报错
删除output文件

rm -rf output 2.1.伪分布式模式

进入hadoop解压路径中

cd /opt/hadoop 2.2.源码修改

vim etc/hadoop/core-site.xml

<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>

vim etc/hadoop/hdfs-site.xml

<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration> 2.3.初始化节点

Tip 如果出错,可以删除生成的文件在/tem路径下

rm -rf /tmp/hadoop-wxl

注意:因为format在/tmp目录下,所以每次重启机器这些文件会丢失,所以。。。每次开机都需要format一次。
初始化namenode

bin/hdfs namenode -format

2.4.启动hdfs sbin/start-dfs.sh

查看是否正常启动

jps

Ubuntu 16.04安装Hadoop2.6+Spark1.6+开发实例@linuxidc

若启动成功,访问web端:50070

Ubuntu 16.04安装Hadoop2.6+Spark1.6+开发实例@linuxidc

2.5.YARN 的伪分布式 2.5.1.源码修改

创建一个mapred-site.xml,这里采用源文件备份的mapred-site.xml。

cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/63364ff82e8e4c6eba1e8183f21639a0.html