安装Hadoop并不困难,官方文档也给的还算详细。最近同事练习安装还是会遇到一些问题,最后我们整理出来傻瓜版hadoop安装手册,帮助你0基础成功。
一、 Hadoop准备篇:Hadoop运行软件环境:
1. SSH及 SSHD服务正常运行 2. JDK如果没装,可以自己安装一下:
Sudo yum –y install jdk –b current
二、 Hadoop基础篇(安装完成单节点Hadoop) 1. 源代码下载1.1 下载Hadoop 源码压缩包至服务器
1.2 解压源码压缩包 tar HadoopInstall
Tar –zvxf hadoop-0.20.2.tar.gz –C HadoopInstall
HadoopInstall即为Hadoop安装目录
2. 环境变量配置 : (hadoop_env.sh )目录/home/YOURDictionary/HadoopInstall/ hadoop-0.20.2 /conf
2.1 JAVA_HOME:必选变量。
设置export JAVA_HOME=/usr/java/jdk1.6.0 jdk路径
2.2 HADOOP_HOME:可选变量
HADOOP_HOME默认的是bin目录的父目录,即/home/usr/HadoopInstall/ hadoop-0.20.2。
设置export HADOOP_HOME=/home/usr/HadoopInstall/ hadoop-0.20.2
3. 环境配置文件配置主要有三个配置文件:core-site.xml, hdfs-site.xml, mapred-site.xml
3.1 conf/core-site.xml <configuration> <property> <name>fs.default.name</name> —-文件系统的默认名称 <value>hdfs://(master ip):9000</value> </property> </configuration>
同理配置其他参数:
a. Hadoop运行的临时目录
hadoop.tmp.dir=/home/ads/data(自己设定自己虚拟机上的文件夹路径)
3.2 conf/hdfs-site.xml: <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration> 同理配置其他参数:
a. DFS的数据保存目录:dfs.data.dir=/home/data,/home1/data(自己设定自己虚拟机上的文件夹路径
b. DFS Namenode保存的位置:dfs.name.dir=${hadoop.tmp.dir}/dfs/name,/home/ads/data1/dfs/name(自己设定自己虚拟机上的文件夹路径)
3.3 conf/mapred-site.xml: <configuration> <property> <name>mapred.job.tracker</name> — Jobtracker的位置 <value>(master ip):9001</value> </property> </configuration> 同理配置其他参数: a. 单节点同时运行的最大map数:mapred.tasktracker.map.tasks.maximum=8 b. 单节点同时运行的最大reduce数:mapred.tasktracker.reduce.tasks.maximum=6
4 主机自身打通 (ssh-keygen 命令详解见下节进阶篇)
$ ssh-keygen -t rsa -P ” -f ~/.ssh/id_ rsa
$ cat ~/.ssh/id_ rsa.pub >> ~/.ssh/authorized_keys