vim etc/hadoop/mapred-site.xml
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>vim etc/hadoop/yarn-site.xml
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration> 2.5.2开启YARN sbin/start-yarn.sh查看是否全部正常启动命令jps,如图
也可以在web端查看,地址:8088/cluster
在/opt/spark/conf的文件,将spark-env.sh.template复制为spark-env.sh
增加
即可。
可以看到spark配置比较简单,只需要解压,放置指定路径皆可。
可以看到每次shell打印一堆info信息,为了较少信息输出,建立log机制
cp conf/log4j.properties.template conf/log4j.properties
将log4j.properties文件中的log4j.rootCategory=INFO, console
修改为 log4j.rootCategory=WARN, console
启动
IPYTHON_OPTS="notebook" /opt/spark/bin/pyspark输入测试例子,shift+enter是运行本单元格并且建立新行,依次输入
lines =sc.textFile("README.md") lines.count() lines.first()至此,整个环境搭建和开发过程总结完毕,愉快的开发吧!
注意:Spark支持的python版本是python2.7.x,也支持python3.4+。但是在开发程序时候,朋友请保证注意pyhton版本,如果程序和使用内核不同的话,jupyter notebook内核则会报错。
下面关于Hadoop的文章您也可能喜欢,不妨看看: